html表情-跟我斗,我就用Python爬虫下载几个G表情砸死你

2023-08-23 0 4,455 百度已收录

可以听到这个img标签的class等于img-responsivelazyimage_dtz,然后我们再去定位其他表情的img

Tags,找到所有表达式的img标签,他的类是img-responsivelazyimage_dtz:

因此,我们只需从网上拉取数据,然后按照这个规则提取即可。 这里我们使用了两个第三方库,一个是requests,专门用于网络请求。 第二个库是bs4html表情,专门用于分析和过滤请求的数据。 如果这两个库没有安装,可以使用以下代码安装(我使用的是python2.7版本):

那么我们以第一页为例,给大家讲解一下如何获取页面中所有表情符号的链接:

这样我们就可以在控制台看到这个页面的所有表情链接,并全部复制。

下载图片:

有了图片链接后,需要下载图片并进行处理。 这里我们以一张图片为例:我们来看看如何用Python轻松下载图片:

这将下载图像。

结合以上三部分:

以上三部分分别是如何创建所有页面的URL、如何获取一个页面内所有表情符号的链接以及下载图片的方式。 接下来,将这三个部分组合在一起,就可以构建一个完整但效率低下的爬虫:

完整代码

在此代码之上。 完全可以运行。 但效率不高html表情,毕竟是下载图片,还得排队一张一张下载。 如果可以使用多线程,当一张图片下载完毕后,完全可以请求其他图片,无需等待。 因此效率比较高,下面的例子改为多线程实现。

二、多线程下载图片:

这里我们使用Python自带的threading模块来实现多线程。 我们使用一种称为生产者和消费者的模式。 制作者专门使用下载链接从每个页面获取表情符号,并将其存储在全局列表中。 消费者专门从这个全局列表中提取表情符号链接进行下载。 并且需要注意的是,多线程中使用全局变量需要锁来保证数据的一致性。 以下是多线程爬虫代码(有不懂的可以看视频,讲解很详细):

写在最后:

本教程使用多线程来完成表达式的抓取,可以使抓取效率提高很多倍。 Python的多线程看似有GIL全局解释器锁,但在网络IO处理方面表现良好,不需要在一处等待。 上面的反例很好地说明了多线程的用处。 另外,如果你对Python和爬虫或者框架感兴趣,可以进群学习讨论(526929231)(这个教程视频可以在群里向我要)。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悟空资源网 html html表情-跟我斗,我就用Python爬虫下载几个G表情砸死你 https://www.wkzy.net/game/145955.html

常见问题

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务