手把手教你爬取斗图啦表情包

发布日期:2021-09-29 18:47   来源:未知   阅读:

  开奖直播现场香港结果。闲来无事,突然想到表情包好久没有更新了,正好这几天学了爬虫,利用爬虫来更新一波表情包,哈哈哈。

  有一个网站,叫做“斗图啦”,网址是:。这里面包含了许许多多的有意思的斗图图片,还蛮好玩的。这里我分析了两种方式获取斗图啦的表情包:

  2.通过斗图啦网站提供的 API 接口,获取 json 获取图片(异步IO)

  说明:本爬虫纯粹是个人娱乐,如果他人使用该爬虫对网站服务器造成不良影响与本人无关。

  页面分析是为了找到这些图片或者 URL 之间的规律,通过这些规律我们在写爬虫去获取相应的内容,如图:

  通过上图,我们可以发现 “” 中 page 参数表示当前是第几页。套图详情是在 “” 这个地址下面的,其中 xxxxx 是一个类似套图id的一串数字(因为后面我们是用正则来匹配这串数字,所以具体是多少不重要啦~)。我们要找的表情包就在详情页面下,接着分析详情页面,如图:

  注意:Rule 中定义的规则,会从当前 url 请求的 response 中去进行匹配,如果当前规则匹配成功,并且指定了 callback 回调函数,那么就会请求该 url 并执行回调函数, 如果没有指定回调函数,则表示爬虫继续跟进匹配到的 url。

  这里爬虫的主要代码就没有了,剩下的就是根据自己的需要配置settings.py文件了,建议设置cookie,和缓存,并配置适当的请求数和延迟。

  REST接口就简单多了,这是网址提供的请求接口,这就只需要我们构造一个url请求,获取到服务器返回的 json 即可。在返回的 json 中就有表情包的下载链接,直接下载就可以了。啥都不说了,直接上代码:

  最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院上面的关于斗图网爬取的公开课,课程内容大致是...

  文案大师约翰·贝文斯曾说过:”对于我而言,文案的关键在于探索,追随直觉比遵循简报更重要。我认为优秀的广告文案不完全...

  首先别和我一样太作 别总是用分手什么的做威胁来显示你的存在感 不仅没用还适得其反而且还会伤害他 你要记得多关心细腻...

  BZOJ1669: [Usaco2006 Oct]Hungry Cows饥饿的奶牛

  题意给定长度为n的序列,求最长上升子序列复杂度O(nlogn)题解网上有很多关于最长上升子序列nlogn的求法,我...