800819103
在线客服,实时响应qq群
在线客服,实时响应客服电话
13318873961提取数据能够获得许多有用的信息,但在采集是通常会遇到一些问题而导致爬虫被封,其中采集速度问题如何解决呢?怎么控制爬虫速度?参考做法:
1.修改是否遵守爬虫协议为False
2.修改并发请求数,修改为1,或者2,越小爬取速度越慢,太快容易被识别到
3.修改下载延迟时间,DOWNLOAD_DELAY设置越大请求越慢
4.开启中间键
5.开启PIPELINES,一般在要存储数据的时候开启
6.开启如下设置
爬取的过程中遇到一个问题就是,如果爬取页面设置为从page1到page10000,爬取的结果有很多漏掉的。然后将设置修改为如上,还是会有漏掉的。
解决办法是将DOWNLOAD_DELAY时间设置的更大一些。
怎么控制爬虫速度方法不少,以上仅供参考!如果需要使用代理IP突破IP限制问题,建议使用精灵代理,精灵代理拥有上千万的IP池,IP均来源于家庭拨号,IP真实。