爬虫怎么突破验证码限制-精灵代理

您的位置：新闻资讯 >文章内容

爬虫怎么突破验证码限制

来源：karyuet 作者：admin 时间：2018-12-14 18:06:47

除了常见的IP限制，爬虫在采集数据时还会遇到验证码研制，特别是12306的验证码，大家都深有体会，难倒了多少人啊！

但神奇的是，难倒了大批人，爬虫的速度还是那么的快，这是为什么呢？爬虫怎么突破验证码限制的？下面小编介绍一下案例：

做了一个分布式的爬虫爬取知乎用户信息，将一个slave端放在了阿里云服务器上，爬了一个小时后提示“ip访问频繁，请进行验证用于确认这些请求不是自动发出的“。

原来是爬的太快了，被知乎发现了，要求输入验证码，类似以下

一般的图片验证码，可以用云打码或保存本地识别后再发送post请求之类的，这种拖动滑块验证码在无界面的centos系统上就很难受了。

研究了半天终于找到了解决方案：将阿里云服务器作为代理服务器，本地浏览器使用代理ip登陆知乎，完成验证，ip解除禁止。

使用squid：

安装：yum install squid

配置：

1.vi /etc/squid/squid.conf, 在结尾处追加：

                dns_nameservers 8.8.8.8
                http_port 8000
                http_access allow all
                cache_mem 60 MB

2.注释掉默认的http_access deny all

创建squid交换目录：

cd /usr/sbin/
./squid -z

启动squid、查看端口状态：

./squid
netstat -ntl

停止squid：

./squid -k shutdown

此时，将浏览器的代理IP设置为你服务器的IP，端口设置成上面的8000，使用chrome直接设置代理会不管用，这里选择用selenium

                from seleniumimport webdriver
                chromeOptions = webdriver.ChromeOptions()
                chromeOptions.add_argument("--proxy-server=http://服务器ip:8000")
                url= 'https://www.zhihu.com'
                driver = webdriver.Chrome(chrome_options = chromeOptions)
                driver.get(url)
                time.sleep(60)

等网页打开滑动进行验证，此时ip已经解除限制了。

相关文章内容简介

多IP自由切换，不限量IP代理套餐

精灵代理-已在国内200+城市地区设置节点，可以给大家更广泛的选择空间。In today's digital age, having the ability to switch between multiple IP addresses is essential for many individuals and businesses. Whether you are looking to bypass geo-restrictions, enhance your online security, or simply maintain anonymity while browsing the internet, having access to a reliable and unlimited IP proxy service is crucial.With the rise of online censorship and surveillance, being able to switch between multiple IP address...[阅读全文]

`最佳代理服务器网站推荐`重要性何在?

精灵代理-代理IP均为高匿名IP，代理服务器不会转发原始请求的IP，也不会添加额外的代理ip特征头，ip高匿名。最佳代理服务器网站推荐重要性何在?在如今信息爆炸的时代，网络安全问题愈发凸显。随着网络攻击的不断增多，保护个人隐私和数据安全成为重中之重。而代理服务器则成为一种有效的网络安全工具，可以帮助用户隐藏IP地址、加密数据传输、浏览被封锁的网站等。然而，选择一个可信赖且高效的代理服务器网站也成为了一项挑战。这就为我们带来了一个重要问题：最佳代理服务器网站推荐的重要性何在？首先，最佳代理服务器网站推荐能够保障用户的隐私和安全。在互联网上，有许多不法分子利用用户的个人信息进行网络攻击或者盗取用户的隐私数据。通过使用代理服务器，用户可以隐藏自己的真实IP地址，避免被不法分子跟踪或监视，从而保护个人隐私。而选择一个可信赖的代理服务器网站，可以确保用户的数据传输受到加密保护，有效防止信息泄露和被窃取的风险。其次，最佳代理服务器网站推荐还能帮助用户突破地域限制，访问被封锁的网站。在一些国家或地区，政府或者互联网服务提供商会对一些特定网站进行封锁，导致用户无...[阅读全文]

商务合作HOT