三个新手学习Python爬虫简单案例-精灵代理

您的位置：新闻资讯 >文章内容

三个新手学习Python爬虫简单案例

来源：Python_iOS书籍库作者：admin 时间：2018-12-04 17:05:35

学习Python，爬虫是比较入门的项目，而且现在很多企业都需要用到爬虫爬取数据，那么如果想学这么语言，怎么快速上手呢？下面精灵代理分享几个新手学习Python爬虫简单案例。

一、爬取图片数据

1.获取网址的response，分页内容，解析后提取图集的地址。

2.获取网址的response，图集分页，解析后提取图片的下载地址。

3.下载图片（也就是获取二进制内容，然后在本地复刻一份）。

二、爬取微博数据

利用chrome浏览器，获取自己的cookie。
获取你要爬取的用户的微博User_id。
将获得的两项内容填入到weibo.py中，替换代码中的YOUR_USER_ID和#YOUR_COOKIE，运行代码。

三个新手学习Python爬虫简单案例

用wordcloud等软件生成词云，它会根据信息的频率、权重按比列显示关键字的字体大小。

三、爬取王者荣耀全套皮肤

怎么获取全套皮肤？用钱买，或者用爬虫爬取下来~虽然后者不能穿。这个案例稍微复杂一点，但是一个非常值得学习的项目。

1.首先进入所有英雄列表。

2.在这个网页中包含了所有的英雄名称。点击其中一个英雄例如“百里守约”。网址中196.shtml以前的字符都是不变的，变化的只是196.shtml。而196是“百里守约”所对应的数字，要想爬取图片就应该进入每个英雄图片所在的网址，而网址的关键就是对应的数字。

3.在所有英雄列表中，打开浏览器的开发者工具，刷新，找到一个json格式的文件，如图所示：

三个新手学习Python爬虫简单案例

4.这时就会看到所有英雄对应的数字了。在上图所示的Headers中可以找到该json文件对应的网址形式。将其导入Python，把这些数字提取出来，然后模拟出所有英雄的网址即可。

三个新手学习Python爬虫简单案例

5.下载图片

现在可以进入所有英雄的网址并爬取网址下的图片了。进入一个英雄的网址，打开开发者工具，在NetWork下刷新并找到英雄的皮肤图片。如图所示：

三个新手学习Python爬虫简单案例

6.然后在Headers中查看该图片的网址。会发现皮肤图片是有规律的。我们可以用这样的方式来模拟图片网址

在该网址中只有str(v)与str(u)是改变的（str( )是Python中的一个函数），str(v)是英雄对应的数字，str(u)只是图片编号，例如第一个图片就是1，第二个就是2，第三个……而一个英雄的皮肤应该不会超过12个（可以将这个值调到20等）。接着就是下载了。

7.下载代码

三个新手学习Python爬虫简单案例

执行完上面的代码后只需要执行main函数就行了

上文分享了三个新手学习Python爬虫简单案例，对于不同的需求，爬取的方法也有所不同。学习Python，需要不断的进行实战，才能学习到更多的知识。在爬取数据中，遇到IP受限问题，可以使用精灵代理更换被封的IP，以突破IP限制，继续爬取数据。IP限制是非常基础的限制，这是网站设置的反爬虫机制。除了IP限制，还有其他的限制，比如验证码等等，可以根据实际情况调整。

相关文章内容简介

多IP自由切换，不限量IP代理套餐

精灵代理-已在国内200+城市地区设置节点，可以给大家更广泛的选择空间。In today's digital age, having the ability to switch between multiple IP addresses is essential for many individuals and businesses. Whether you are looking to bypass geo-restrictions, enhance your online security, or simply maintain anonymity while browsing the internet, having access to a reliable and unlimited IP proxy service is crucial.With the rise of online censorship and surveillance, being able to switch between multiple IP address...[阅读全文]

`最佳代理服务器网站推荐`重要性何在?

精灵代理-代理IP均为高匿名IP，代理服务器不会转发原始请求的IP，也不会添加额外的代理ip特征头，ip高匿名。最佳代理服务器网站推荐重要性何在?在如今信息爆炸的时代，网络安全问题愈发凸显。随着网络攻击的不断增多，保护个人隐私和数据安全成为重中之重。而代理服务器则成为一种有效的网络安全工具，可以帮助用户隐藏IP地址、加密数据传输、浏览被封锁的网站等。然而，选择一个可信赖且高效的代理服务器网站也成为了一项挑战。这就为我们带来了一个重要问题：最佳代理服务器网站推荐的重要性何在？首先，最佳代理服务器网站推荐能够保障用户的隐私和安全。在互联网上，有许多不法分子利用用户的个人信息进行网络攻击或者盗取用户的隐私数据。通过使用代理服务器，用户可以隐藏自己的真实IP地址，避免被不法分子跟踪或监视，从而保护个人隐私。而选择一个可信赖的代理服务器网站，可以确保用户的数据传输受到加密保护，有效防止信息泄露和被窃取的风险。其次，最佳代理服务器网站推荐还能帮助用户突破地域限制，访问被封锁的网站。在一些国家或地区，政府或者互联网服务提供商会对一些特定网站进行封锁，导致用户无...[阅读全文]

商务合作HOT