800819103
在线客服,实时响应qq群
在线客服,实时响应客服电话
13318873961在采集数据时,通常有些文章不止一个页面,如果想获取分页的数据,应该怎么获取呢?下面跟精灵代理一起去了解一下爬虫怎么获取分页数据。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
一、爬取对象
选定网站某栏目下的前10页数据
二、编程思路
寻找分页地址的变动规律;解析网页,获取内容,放入自定义函数中;调用函数,输出分页内容。
三、爬虫怎么获取分页数据
1. 首先插入用到的库:BeautifulSoup、requests
2. 观察地址的变化规律,可以看到,每切换一页时,后面“createTimeDesc-1.html”中的数字1会随着页面的变动而变动,此时我们将地址存放进列表中,后面用format()和for循环来实现多个地址的存储。
此时可以先print下,看地址是否正确,这里range(1,11)是前10个页面的地址。
3. 接下来定义解析函数,参数data的初始值为空。函数内用到的内容和上一篇文章中讲到的相同。先请求urls,然后用BeautifulSoup解析,筛选我们想要的项目标题titles的位置,实现输出。
4. 最后,我们来调用函数。