本文主要介绍如何使用后易采集器的智能模式免费采集大众点评店铺的地址、人均、评价、电话等信息。
采集工具简介:
后羿采集器是一款基于人工智能技术的网页采集器。 只需输入URL即可手动识别网页数据,无需配置即可完成数据采集。 是业界首款支持三种操作系统(包括Windows、Mac等)和Linux)的网络爬虫软件。
本软件是一款真正免费的数据采集软件网站点评源码,对采集结果的导入没有任何限制网站点评源码,没有编程基础的新手用户也可以轻松满足数据采集要求。
官方网站:
集合对象简介:
大众点评是中国领先的本地生活信息和交易平台,也是全球最早的独立第三方消费评论网站。 除了为用户提供商家信息、消费评论、消费让利等信息服务外,大众点评还提供团购、餐厅预订、外卖、电子会员卡等O2O(Online To Offline)交易服务。
集合数组:
店铺名称、商家链接、地址、评论数、人均、口味、环境、服务、团购数、展示图片、电话号码
功能点目录:
如何采集列表+详情页类型网页
如何从移动网页收集数据
如何下载图片
采集结果预览:
导入Excel表格:
本地导入的图片:
接下来详细介绍一下如何免费收集大众点评网店铺数据。 我们以北京自助餐的门店数据为例。 具体步骤如下:
第一步:下载并安装后羿采集器,并注册登录
1、打开后羿采集脏腑网,下载并安装爬虫软件工具——后羿采集器软件
2、点击注册登录,注册新账号,登录后羿采集器
【温馨提示】无需注册即可直接使用本爬虫软件,切换到注册用户后匿名账户下的任务将会丢失,所以建议您注册后使用。
后羿收藏家是弓箭云的产品。 如果您是Archer用户,可以直接登录。
步骤2:新建采集任务
1.复制大众点评自助餐厅的网页(需要搜索结果页的URL,而不是首页的URL)
2.新建智能模式采集任务
您可以直接在软件上创建新的采集任务,也可以通过导出规则来创建任务。
步骤3:配置采集规则
1.设置提取的数据数组
在智能模式下,我们输入URL后,软件可以手动识别页面上的数据并生成采集结果。 每种类型的数据对应一个集合数组。 我们可以右键数组进行相关设置,包括更改数组名称、增减数组、处理数据等。
在列表页面,我们需要采集大众点评网店铺的店铺名称、商家链接、地址、评论数、人均、口味、环境、服务、团购数,并展示大众点评网店铺的图片,因为明星评级元素比较特殊,后羿V2.1.22版本目前不支持采集该数组,该功能将在后续版本中实现。 数组设置的效果如下:
2.利用深度采集功能提取详情页数据
列表页面仅显示自助餐厅的部分信息。 如果我们需要采集餐厅的电话号码,需要右键点击餐厅的链接使用“深度采集”功能,跳转到详情页面进行采集。
在详情页面,我们可以看到店铺的电话号码。 我们点击“添加数组”按钮,然后在页面上点击商店的电话号码。
我们可以看到添加的数组收集字符而不是实际的商店电话号码。 这是因为在PC浏览器模式下,大众点评设置了商店手机元素。 当我们复制这个电话号码时,它实际上并不是电话号码,而是字符。
由于不同的网页在不同的浏览器模式下可能会显示不同的内容,而大众点评网的店铺电话号码在手机浏览器模式下可以显示实际的内容,因此我们可以通过切换浏览器模式来提取店铺号码数组。
第四步:设置并启动采集任务
1.设置采集任务
添加完采集数据后,我们就可以开始采集任务了。 在开始之前,我们需要对采集任务进行一些设置,从而提高采集的稳定性和成功率。
点击“设置”按钮,在弹出的操作设置页面中,我们可以进行操作设置和反屏蔽设置。 这里我们勾选“跳过并继续采集”,设置等待时间“2”秒,并勾选“不加载网页图片”,反屏蔽设置以系统默认设置为准,然后点击保存。
2.启动采集任务
点击“保存并开始”按钮,在弹出的页面中可以进行一些中间设置,包括定时开始、自动存储和下载图片等。 本例中没有使用定时采集和手动存储的功能。 勾选下载图片到本地功能后,点击“开始”运行爬虫工具。
【温馨提示】免费版可以使用非周期定时采集功能,下载图片功能免费。 个人专业版及以上可以使用中间定时功能和手动存储功能。
3.运行任务提取数据
任务启动后,开始手动数据采集。 我们可以从界面直观地看到程序运行过程和采集结果,采集完成后会有提醒。
第5步:导入并查看数据
数据采集完成后,我们可以查看并导入数据。 后易采集器支持多种导入方式(自动导入到本地、手动导入到数据库、自动发布到数据库、自动发布到网站)和导入文件格式(EXCEL、CSV、HTML和TXT),我们选择我们需要的方式和文件类型,然后单击“确认导入”。
【温馨提示】:所有自动导入功能都是免费的。 个人专业版及以上版本可以使用发布到网站功能。