800819103
在线客服,实时响应qq群
在线客服,实时响应客服电话
13318873961在互联上抓取用户的信用数据是信用评级的重要手段,例如从支付宝网站抓取的交易记录就能从侧面反映出用户的经济实力。但在抓取这些信息时也遇到了人为设置的技术障碍。有些网站为了防止爬虫抓取信息,做了IP限制。例如限定单个IP在每分钟内只能访问100次,那么一台爬虫服务器在每分钟内只能发起100次网络请求,当发起第101个请求时则会被目标服务器拒绝。,如何突破限制呢,答案是多IP爬虫。
通过多IP爬虫,又分为以下几种形式:
1、通过ADSL拨号换IP。每拨一次就会有一个新IP,较好解决IP单一问题。
2、如果是局域网,带路由器的,第一种方法可能不好用。这个时候可以模拟登陆路由器,控制路由器重新拨号,换IP,这其实是一种折中的办法,曲线救国。
3、代理IP,利用购买的或者网上抓取的免费代理IP,实现多IP爬虫,这种形式是最常见的。
4、分布式爬虫。采用多个服务器、多个IP、多个slave爬虫同时运行,由master负责调度。效率较高,属于大型分布式抓取,一般用redis分布式抓取。