如何采集网站视频源码-【附源代码】如何实现网页数据采集脚本?

关注抖音“按钮精灵”(抖音账号:anjian07)。 我们会不定期发布各种办公和生活中会用到的脚本技巧。 这个简短的教程视频已在抖音上发布。 欢迎观看!

在日常的办公工作中,我们经常需要从网页中提取信息并填充到excel中。 如果收集大量的信息,确实是费时费力。 如何让键盘向导为您完成此操作? 向下看…

(本教程以输入键盘峰会会员区帖子信息为例进行反例)

1. 剧本构思

脚本大致分为两部分:获取网页信息和将信息填写到EXCEL表格中

1.打开浏览器,输入目标网站

2.从网页中提取信息,解析出所需的标题、链接、作者、时间等信息

3.打开EXCEL表格,填写相应信息

2.插件命令

这次需要用到两个插件:【神梦填表】【懒人办公】

(插件可到原文下载)

1.【神盟填表】插件是一个用于操作IE和Chrome浏览器的命令库。 我们先来看看这次会用到的命令。

命令名称:microsoft_start

命令功能:启动微软浏览器,将命令库内核切换到微软内核。 可以使用的命令:以{method_}和{webpage_}开头的命令,以及以{code_}开头的命令

命令参数:参数1【必填】:字符串,浏览器路径

返回值:字符串,返回浏览器的所有标识符如何采集网站视频源码,标识符之间用“||”分隔

命令名称:mode_webpage open

命令功能:在当前标签页中打开Url指定的网页

命令参数:参数1【必填】:字符串,打开链接

返回值:无

命令名称:mode_get status

命令功能:获取当前网页的状态

命令参数:无

返回值:整数,返回网页状态:0=未初始化; 1=加载中; 2=加载完成; 3=解析交互; 4=全部完成

命令名称:web page_execute JS

命令功能:在当前网页执行一段JS脚本,支持获取返回值

命令参数:参数1【必填】:整型,执行类型;

类型:0表示执行JS,无返回值。

1表示执行JS并返回返回值,这就需要JS中有一个return语句

如何采集网站视频源码-【附源代码】如何实现网页数据采集脚本?

参数2【必填】:字符串,JS脚本语句

返回值:string类型,返回特征字符串

命令名称:网页_获取元素信息

命令功能:获取网页元素指定属性信息

命令参数: 参数1【必填】:字符串,网页元素属性类型:

参数2【必填】:字符串,元素特征

返回值:字符串,获取的网页元素的值

插件中有很多方法。 详细的命令使用方法和示例可以在下载插件后的帮助文件中查看。

2、【懒人Office】插件使用读写EXCEL命令。 相关命令可以查看之前的教程:

3. 脚本实现

首先在下面的界面上获取一些配置信息。

//初始化配置

DimChromePath、ExcelPath

//这里需要改成自己机器上的微软浏览器路径

如何采集网站视频源码-【附源代码】如何实现网页数据采集脚本?

ChromePath="C:ProgramFilesGoogleChromeApplicationchrome.exe"

ExcelPath=Form1.BrowseBox1.Path

通过插件打开浏览器并等待网页加载。

//打开微软浏览器

ret=神梦_网页表单填写。 Microsoft_Start (ChromePath)

如果雷特=“”然后

TracePrint“启动失败,请在启动脚本之前完全关闭Microsoft浏览器!”

退出脚本

别的

TracePrint“启动成功!”

万一

//等待网页加载完成

调用神盟_网页填表。 方法_网页打开(“http://bbs.anjian.com/showforum-219-1.aspx”)

延迟500

LoopUntil Shenmeng_网页表单填写.Method_Get status()=4

之后,我们开始获取网页中帖子的信息。 我们需要首先获取帖子数量。 这里我们通过执行JS来获取。

//通过执行JS获取当前页面的帖子数

暗淡帖子计数

PostCount=Cint(神梦_网页表单填写.webpage_execution JS(1,"returndocument.getElementsByClassName('ordinarytheme').length"))

跟踪打印帖子计数

通过分析网页的结构,我们可以发现如何采集网站视频源码,每个帖子所需要的信息都在一个tbody标签中,因此我们可以获取每个tbody中的内容,然后使用正则表达式进行解析,得到想要的信息。

首先,我们来编译一个常规的解析函数。 由于键盘向导本身没有相关命令,所以我们需要利用VBS的功能来实现(键盘向导对VBS的兼容性比较高,可以运行大部分VBS代码)。

函数RegexFindM(FindExp,FindText)

DimRegEx,匹配,匹配

设置RegEx=NewRegExp

RegEx.IgnoreCase=true

RegEx.Pattern=FindExp

SetMatches=regEx.执行(FindText)

IfMatches.Count>0Then

IfMatches(0).SubMatches.Count>0Then

RegexFindM=匹配(0).SubMatches(0)

万一

万一

设置匹配=无

SetRegEx=无

结束函数

现在你可以通过遍历每个帖子的元素内容来解析所需的信息。

//循环遍历每个帖子

暗淡HTML

论坛=13ToPostCount+12

HTML=神梦_网页表单填写。 page_get元素信息("html","//*[@id='threadlist']/tbody["&i&"]")

PostTitle=RegexFindM("([^

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悟空资源网 网站源码 如何采集网站视频源码-【附源代码】如何实现网页数据采集脚本? https://www.wkzy.net/game/198104.html

常见问题

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务