案例实战：爬虫怎么爬取新闻信息-精灵代理

您的位置：新闻资讯 >文章内容

案例实战：爬虫怎么爬取新闻信息

来源：后端漫谈作者：admin 时间：2018-12-04 17:25:30

爬虫可以大量的爬取数据，通过整合数据，可以挖掘有价值的信息，常常应用于电商等行业。许多新手也想通过自学，学会爬虫的编写，实现数据的爬取。今天精灵代理小编跟大家分享爬取新闻信息的案例，至于爬虫怎么爬取新闻信息，就跟小编一起去了解一下。

一、爬取目的

主要是爬取网易新闻，包括新闻标题、作者、来源、发布时间、新闻正文。

二、爬取步骤

1.找出请求地址

我们打开163的网站，我们随意选择一个分类，这里我选的分类是国内新闻。然后鼠标右键点击查看源代码，发现源代码中并没有页面正中的新闻列表。这说明此网页采用的是异步的方式。也就是通过api接口获取的数据。

那么确认了之后可以使用F12打开谷歌浏览器的控制台，点击 Network，我们一直往下拉，发现右侧出现了："… special/00804KVA/cm_guonei_03.js? … "之类的地址，点开Response发现正是我们要找的api接口。

可以看到这些接口的地址都有一定的规律：“cm_guonei_03.js”、“cm_guonei_04.js”，那么就很明显了：

http://temp.163.com/special/00804KVA/cm_guonei_0(*).js

上面的链接也就是我们本次抓取所要请求的地址。

接下来只需要用到的python的两个库：

2.开始编写爬虫

先导入requests、json、BeautifulSoup三个包。requests库就是用来进行网络请求的，说白了就是模拟浏览器来获取资源。由于我们采集的是api接口，它的格式为json，所以要用到json库来解析。BeautifulSoup是用来解析html文档的，可以很方便的帮我们获取指定div的内容。

接着我们定义一个获取指定页码内数据的方法：

这样子就得到每个页码对应的内容列表：

案例实战：爬虫怎么爬取新闻信息

之后通过分析数据可知下图圈出来的则是需要抓取的标题、发布时间以及新闻内容页面。

既然现在已经获取到了内容页的url，那么接下来开始抓取新闻正文。

在抓取正文之前要先分析一下正文的html页面，找到正文、作者、来源在html文档中的位置。

我们看到文章来源在文档中的位置为：id = “ne_article_source” 的 a 标签。作者位置为：class = “ep-editor” 的 span 标签。正文位置为：class = “post_text” 的 div 标签。

下面采集这三个内容的代码：

案例实战：爬虫怎么爬取新闻信息

到此为止我们所要抓取的所有数据都已经采集了，为了方便直接采取文本的形式来保存。

格式为json字符串，“标题” ： [ ‘日期’， ‘url’， ‘来源’， ‘作者’， ‘正文’ ]。

要注意的是目前实现的方式是完全同步的，线性的方式，存在的问题就是采集会非常慢。主要延迟是在网络IO上，下次可以升级为异步IO，异步采集，有兴趣的可以关注下次的文章。

上文比较详细的介绍了爬虫怎么爬取新闻信息，通过本次练手，各位应该会对爬虫有一个入门级的了解。作为一位新手，还是多动手，多实践，才能学到东西，仅仅是看，学不会。

相关资讯

1、爬虫怎么爬取大规模数据的？精灵代理千万IP池来帮忙 2、Python爬虫技巧：百万级数据怎么爬取 3、网页上的数据怎么爬取？建立一个网路爬虫方法 4、爬虫怎么爬取图片？爬虫实现批量下载图片 5、案例实战：爬虫怎么爬取新闻信息 6、怎么快速掌握网络爬虫基础，实现大量信息爬取

相关文章内容简介

`学会如何使用代理服务器`

精灵代理-随着互联网技术的稳步发展和提升，代理IP这一工具类产品成为了许多互联网人的必备工具。学会如何使用代理服务器代理服务器是一种常用的网络工具，它可以帮助用户隐藏自己的真实IP地址，保护隐私并访问被封锁的网站。今天我们来学习如何正确地使用代理服务器。首先，选择合适的代理服务器非常重要。有很多免费和付费的代理服务器可供选择，但是要注意选择信誉良好、速度快、稳定性强的代理服务器。付费代理服务器通常比免费代理服务器更可靠，因为它们提供更好的服务和安全性。其次，配置代理服务器也很重要。大多数操作系统和浏览器都支持代理服务器设置。在Windows系统中，可以通过控制面板中的Internet选项来配置代理服务器；在Mac系统中，可以在网络设置中配置代理服务器；在浏览器中，可以在设置中找到代理服务器选项进行设置。另外，了解代理服务器的类型也很有必要。代理服务器主要分为匿名代理、透明代理和高匿代理。匿名代理会隐藏你的真实IP地址，但会告诉服务器你正在使用代理；透明代理会隐藏你的真实IP地址，但不会隐藏你使用代理服务器的事实；高匿代理会隐藏你的真实IP地址，并...[阅读全文]

网络安全: IP地址代理的使用技巧

精灵代理-专业提供国内动态ip代理 ip加速器 http代理网络加速器服务。网络安全: IP地址代理的使用技巧在如今信息高度互联的时代，网络安全问题日益凸显。IP地址代理作为一种有效的网络安全手段，可以帮助用户隐藏真实IP地址，保护个人隐私，避免被追踪或攻击。然而，要想充分发挥IP地址代理的作用，用户需要掌握一些使用技巧。首先，选择可靠的IP地址代理服务商至关重要。用户应该选择信誉好、口碑佳的服务商，避免使用免费的IP代理服务，因为这些免费服务可能存在安全隐患，会导致用户信息泄露。同时，用户还应该关注服务商的服务器分布和速度，选择距离自己较近且速度较快的服务器，以提高网络连接的稳定性和速度。其次，合理设置IP地址代理。用户在使用IP地址代理时，应该根据自己的需求和使用场景设置代理参数，比如选择匿名代理还是透明代理，选择使用HTTP代理还是SOCKS代理等。合理设置IP地址代理可以帮助用户更好地保护个人隐私，提高上网安全性。此外，定期更代理IP地址也是使用IP地址代理的一个重要技巧。定期更代理IP地址可以减少被追踪的风险，提高上网匿名性。用户可以...[阅读全文]

推荐阅读

1、火狐Firefox浏览器代理怎么设置10-31 2、爬虫的代理ip池怎么建？IP池的搭建思路11-29 3、哪个爬虫框架比较好用？八种高效爬虫框架11-30 4、三个新手学习Python爬虫简单案例12-04 5、Python爬虫怎么提取免费IP12-12 6、ip代理有什么作用？国内有什么好的ip代理商？01-02

热门文章

1、什么是IP代理？IP代理有什么用09-20 2、代理IP地址怎么设置09-20 3、http代理和https代理的区别09-21 4、代理服务器的分类有哪些09-18 5、代理服务器是什么09-18 6、代理IP有什么用09-20 7、代理服务器的工作原理09-21 8、HTTP代理与SOCKS代理的区别09-18

随机推荐

1、代理ip常见用途，精灵代理ip怎样10-19 2、国内有什么好的代理IP提供商10-13 3、Python爬虫技巧：百万级数据怎么爬取11-27 4、一个代理IP能用多久？爬虫多久换一次IP不会被封01-04

在线咨询

800819103

在线客服，实时响应

qq群

在线客服，实时响应

客服电话

13318873961

微信公众号

微信公众号