html表情-跟我斗，我就用Python爬虫下载几个G表情砸死你

bendan520 html

2023-08-23 0 4,455 百度已收录

立即下单

进入商城

进不了网站？换个网络试试！

可以听到这个img标签的class等于img-responsivelazyimage_dtz，然后我们再去定位其他表情的img

Tags，找到所有表达式的img标签，他的类是img-responsivelazyimage_dtz：

因此，我们只需从网上拉取数据，然后按照这个规则提取即可。这里我们使用了两个第三方库，一个是requests，专门用于网络请求。第二个库是bs4html表情，专门用于分析和过滤请求的数据。如果这两个库没有安装，可以使用以下代码安装（我使用的是python2.7版本）：

那么我们以第一页为例，给大家讲解一下如何获取页面中所有表情符号的链接：

这样我们就可以在控制台看到这个页面的所有表情链接，并全部复制。

下载图片：

有了图片链接后，需要下载图片并进行处理。这里我们以一张图片为例：我们来看看如何用Python轻松下载图片：

这将下载图像。

结合以上三部分：

以上三部分分别是如何创建所有页面的URL、如何获取一个页面内所有表情符号的链接以及下载图片的方式。接下来，将这三个部分组合在一起，就可以构建一个完整但效率低下的爬虫：

完整代码

在此代码之上。完全可以运行。但效率不高html表情，毕竟是下载图片，还得排队一张一张下载。如果可以使用多线程，当一张图片下载完毕后，完全可以请求其他图片，无需等待。因此效率比较高，下面的例子改为多线程实现。

二、多线程下载图片：

这里我们使用Python自带的threading模块来实现多线程。我们使用一种称为生产者和消费者的模式。制作者专门使用下载链接从每个页面获取表情符号，并将其存储在全局列表中。消费者专门从这个全局列表中提取表情符号链接进行下载。并且需要注意的是，多线程中使用全局变量需要锁来保证数据的一致性。以下是多线程爬虫代码（有不懂的可以看视频，讲解很详细）：

写在最后：

本教程使用多线程来完成表达式的抓取，可以使抓取效率提高很多倍。 Python的多线程看似有GIL全局解释器锁，但在网络IO处理方面表现良好，不需要在一处等待。上面的反例很好地说明了多线程的用处。另外，如果你对Python和爬虫或者框架感兴趣，可以进群学习讨论（526929231）（这个教程视频可以在群里向我要）。

收藏 (0) 打赏

感谢您的支持，我会继续努力的!