800819103
在线客服,实时响应qq群
在线客服,实时响应客服电话
13318873961学习Python,爬虫是比较入门的项目,而且现在很多企业都需要用到爬虫爬取数据,那么如果想学这么语言,怎么快速上手呢?下面精灵代理分享几个新手学习Python爬虫简单案例。
一、爬取图片数据
1.获取网址的response,分页内容,解析后提取图集的地址。
2.获取网址的response,图集分页,解析后提取图片的下载地址。
3.下载图片(也就是获取二进制内容,然后在本地复刻一份)。
二、爬取微博数据
利用chrome浏览器,获取自己的cookie。
获取你要爬取的用户的微博User_id。
将获得的两项内容填入到weibo.py中,替换代码中的YOUR_USER_ID和#YOUR_COOKIE,运行代码。
用wordcloud等软件生成词云,它会根据信息的频率、权重按比列显示关键字的字体大小。
三、爬取王者荣耀全套皮肤
怎么获取全套皮肤?用钱买,或者用爬虫爬取下来~虽然后者不能穿。这个案例稍微复杂一点,但是一个非常值得学习的项目。
1.首先进入所有英雄列表。
2.在这个网页中包含了所有的英雄名称。点击其中一个英雄例如“百里守约”。网址中196.shtml以前的字符都是不变的,变化的只是196.shtml。而196是“百里守约”所对应的数字,要想爬取图片就应该进入每个英雄图片所在的网址,而网址的关键就是对应的数字。
3.在所有英雄列表中,打开浏览器的开发者工具,刷新,找到一个json格式的文件,如图所示:
4.这时就会看到所有英雄对应的数字了。在上图所示的Headers中可以找到该json文件对应的网址形式。将其导入Python,把这些数字提取出来,然后模拟出所有英雄的网址即可。
5.下载图片
现在可以进入所有英雄的网址并爬取网址下的图片了。进入一个英雄的网址,打开开发者工具,在NetWork下刷新并找到英雄的皮肤图片。如图所示:
6.然后在Headers中查看该图片的网址。会发现皮肤图片是有规律的。我们可以用这样的方式来模拟图片网址
在该网址中只有str(v)与str(u)是改变的(str( )是Python中的一个函数),str(v)是英雄对应的数字,str(u)只是图片编号,例如第一个图片就是1,第二个就是2,第三个……而一个英雄的皮肤应该不会超过12个(可以将这个值调到20等)。接着就是下载了。
7.下载代码
执行完上面的代码后只需要执行main函数就行了
上文分享了三个新手学习Python爬虫简单案例,对于不同的需求,爬取的方法也有所不同。学习Python,需要不断的进行实战,才能学习到更多的知识。在爬取数据中,遇到IP受限问题,可以使用精灵代理更换被封的IP,以突破IP限制,继续爬取数据。IP限制是非常基础的限制,这是网站设置的反爬虫机制。除了IP限制,还有其他的限制,比如验证码等等,可以根据实际情况调整。