首页网站源码正文

我要投稿

如何采集网站视频源码-【附源代码】如何实现网页数据采集脚本？

bendan520 网站源码

2023-10-01 0 2,735 百度已收录

立即下单

进入商城

进不了网站？换个网络试试！

关注抖音“按钮精灵”（抖音账号：anjian07）。我们会不定期发布各种办公和生活中会用到的脚本技巧。这个简短的教程视频已在抖音上发布。欢迎观看！

在日常的办公工作中，我们经常需要从网页中提取信息并填充到excel中。如果收集大量的信息，确实是费时费力。如何让键盘向导为您完成此操作？向下看…

（本教程以输入键盘峰会会员区帖子信息为例进行反例）

1. 剧本构思

脚本大致分为两部分：获取网页信息和将信息填写到EXCEL表格中

1.打开浏览器，输入目标网站

2.从网页中提取信息，解析出所需的标题、链接、作者、时间等信息

3.打开EXCEL表格，填写相应信息

2.插件命令

这次需要用到两个插件：【神梦填表】【懒人办公】

（插件可到原文下载）

1.【神盟填表】插件是一个用于操作IE和Chrome浏览器的命令库。我们先来看看这次会用到的命令。

命令名称：microsoft_start

命令功能：启动微软浏览器，将命令库内核切换到微软内核。可以使用的命令：以{method_}和{webpage_}开头的命令，以及以{code_}开头的命令

命令参数：参数1【必填】：字符串，浏览器路径

返回值：字符串，返回浏览器的所有标识符如何采集网站视频源码，标识符之间用“||”分隔

命令名称：mode_webpage open

命令功能：在当前标签页中打开Url指定的网页

命令参数：参数1【必填】：字符串，打开链接

返回值：无

命令名称：mode_get status

命令功能：获取当前网页的状态

命令参数：无

返回值：整数，返回网页状态：0=未初始化； 1=加载中； 2=加载完成； 3=解析交互； 4=全部完成

命令名称：web page_execute JS

命令功能：在当前网页执行一段JS脚本，支持获取返回值

命令参数：参数1【必填】：整型，执行类型；

类型：0表示执行JS，无返回值。

1表示执行JS并返回返回值，这就需要JS中有一个return语句

参数2【必填】：字符串，JS脚本语句

返回值：string类型，返回特征字符串

命令名称：网页_获取元素信息

命令功能：获取网页元素指定属性信息

命令参数：参数1【必填】：字符串，网页元素属性类型：

参数2【必填】：字符串，元素特征

返回值：字符串，获取的网页元素的值

插件中有很多方法。详细的命令使用方法和示例可以在下载插件后的帮助文件中查看。

2、【懒人Office】插件使用读写EXCEL命令。相关命令可以查看之前的教程：

3. 脚本实现

首先在下面的界面上获取一些配置信息。

//初始化配置

DimChromePath、ExcelPath

//这里需要改成自己机器上的微软浏览器路径

ChromePath="C:ProgramFilesGoogleChromeApplicationchrome.exe"

ExcelPath=Form1.BrowseBox1.Path

通过插件打开浏览器并等待网页加载。

//打开微软浏览器

ret=神梦_网页表单填写。 Microsoft_Start (ChromePath)

如果雷特=“”然后

TracePrint“启动失败，请在启动脚本之前完全关闭Microsoft浏览器！”

退出脚本

别的

TracePrint“启动成功！”

万一

//等待网页加载完成

调用神盟_网页填表。方法_网页打开（“http://bbs.anjian.com/showforum-219-1.aspx”）

做

延迟500

LoopUntil Shenmeng_网页表单填写.Method_Get status()=4

之后，我们开始获取网页中帖子的信息。我们需要首先获取帖子数量。这里我们通过执行JS来获取。

//通过执行JS获取当前页面的帖子数

暗淡帖子计数

PostCount=Cint(神梦_网页表单填写.webpage_execution JS(1,"returndocument.getElementsByClassName('ordinarytheme').length"))

跟踪打印帖子计数

通过分析网页的结构，我们可以发现如何采集网站视频源码，每个帖子所需要的信息都在一个tbody标签中，因此我们可以获取每个tbody中的内容，然后使用正则表达式进行解析，得到想要的信息。

首先，我们来编译一个常规的解析函数。由于键盘向导本身没有相关命令，所以我们需要利用VBS的功能来实现（键盘向导对VBS的兼容性比较高，可以运行大部分VBS代码）。

函数RegexFindM(FindExp,FindText)

DimRegEx,匹配,匹配

设置RegEx=NewRegExp

RegEx.IgnoreCase=true

RegEx.Pattern=FindExp

SetMatches=regEx.执行(FindText)

IfMatches.Count>0Then

IfMatches(0).SubMatches.Count>0Then

RegexFindM=匹配(0).SubMatches(0)

万一

设置匹配=无

SetRegEx=无

结束函数

现在你可以通过遍历每个帖子的元素内容来解析所需的信息。

//循环遍历每个帖子

暗淡HTML

论坛=13ToPostCount+12

HTML=神梦_网页表单填写。 page_get元素信息("html","//*[@id='threadlist']/tbody["&i&"]")

PostTitle=RegexFindM("([^

收藏 (0) 打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

悟空资源网网站源码如何采集网站视频源码-【附源代码】如何实现网页数据采集脚本？ https://www.wkzy.net/game/198104.html

命令字符帖子网页脚本

bendan520

在哪打开网站源码-鲁大师商城小程序？鲁大师商城小程序在哪里？

足彩软件源码转让网站-源代码转让相关价格/信息

常见问题

公司宣传网站源码-基于Web的企业推广展示网（完整源代码+全套论文+教学视频）

网站源码

bendan520

2天前 7,670

商城交易网站源码-农产品商城系统源码为农产品营销提供了更广阔的空间。

网站源码

bendan520

2天前 9,954

会员网站系统源码下载-带会员系统的新颖网站源码

网站源码

bendan520

2天前 7,403

本地搭建php源码网站-PHP源码搭建宝塔实战FreeBbs峰会社区uniapp后端源码（第2部分）

网站源码

bendan520

3天前 7,155

如何采集网站视频源码-【附源代码】如何实现网页数据采集脚本？

相关文章

悟空资源

QQ交流群