js去除html标签-HtmlParse:超轻量级HTML文件解析和爬取工具

2023-09-01 0 9,091 百度已收录

HtmlParse是一个基于Windows平台的HTML文档解析工具。 它可以快速构建DOM树,轻松抓取网页元素。 DOM树是HTML文档的节点树。 每个节点由三个值描述:Tag、Attribute 和 Text。

所谓HTML文档解析,就是指如何构建DOM树。 只有成功构建了DOM树,才有可能进行后续的数据爬取和分析。 事实上,构建DOM树是一个相对复杂的过程,因为并不是每个HTML文档都会严格按照规范编写,所以解析过程需要有一定的容错能力。 据悉,解析效率也是一个需要考虑的激励因素,也就是说,通过一次文档扫描来构建 DOM 树比通过重复扫描更好。

下面介绍一下HtmlParse。

工具特点

1.绿色纯净天然,无任何第三方依赖库js去除html标签,文件大小小于150K; 2、解析速度快,具有一定的HTML句子容错能力,可以快速将HMTL文档解析成DOM树; 3、基于命令行参数,可以通过不同的参数获取指定TAG的属性值和文本内容,从而实现网页抓取功能; 4、爬取的数据可以以json格式输出,方便第三方程序进一步分析使用; 5. script脚本可以爬取到指定的js文件;

js去除html标签-HtmlParse:超轻量级HTML文件解析和爬取工具

下载链接:

用法

HtmlParse HtmlPathFile -tag TagName [-attr] [Attribute] [-o] [JsonPathFile]

解析指定的HTML文档,并将文档的指定标签和属性输出到指定文件中。

HtmlPathFile:必需参数,需要解析的HTML文档的路径名。 如果文件路径中有空格js去除html标签,可以使用双冒号包含文件路径;

-tag:必需参数,用于指定要抓取的HTML标签名称; -attr:可选参数,用于指定标签的属性值,如果不指定,将返回该标签的所有属性值; -o:可选 可选参数用于指定捕获内容输出的文件。 捕获的内容可以保存为json格式文件。 如果不指定该参数,则进行控制台输出。 如果脚本和样式被捕获,它们将被保存为js格式文件。

如果你想抓取doctype,可以使用-tagdoctype来获取整个doctype内容。 此时将忽略-attr指定的任何属性值。

例如

1、抓取网页中所有超链接

HtmlParse c:/sina.html -tag a -attr href -o c:/sina.json

解析C盘下的sina.html文档,将文档中的所有超链接提取到sina.json文件中。 其中**-taga-attrhref用于指定href**属性来获取超链接标签a。

2、抓取网页中所有图片链接

js去除html标签-HtmlParse:超轻量级HTML文件解析和爬取工具

HtmlParse c:/sina.html -tag img -attr src -o c:/sina.json

解析C盘下的sina.html文档,并提取文档中的所有图片并链接到sina.json文件。

3、爬取网页中所有脚本

HtmlParse c:/sina.html -tag script -o c:/sina.js

解析C盘下的sina.html文档,将文档中的所有脚本函数提取到sina.js文件中。

输出内容

如果通过-o参数指定输出文件,则会生成json格式的文档。 TagName是爬取的标签的名称,比如超链接的a,它的值是一个json链表,链表中的每个内容都是一个Json对象,每个Json对象由属性和文本组成。 如果-attr指定要爬取的属性,则AttrName为指定的属性名称,例如href或src。 text是标签的文本内容,有些标签没有文本内容,比如img、meta等,那么该值为空。 json格式如下:

{
  "TagName":
  {
     {"AttrName":"AttrValue1", "text":"text1"}
     {"AttrName":"AttrValue1", "text":"text2"}
  }
}

下面是一个sina网页的所有超链接json

{
 "a": [{
  "href": "javascript:;",
  "text": "设为首页"
 }, {
  "href": "javascript:;",
  "text": "我的菜单"
 }, {
  "href": "https://sina.cn/",
  "text": "手机新浪网"
 }, {
  "href": "",
  "text": "移动客户端"
 }, {
  "href": "https://c.weibo.cn/client/guide/download",
  "text": "新浪微博"
 }, {
  "href": "https://so.sina.cn/palmnews/web-sinanews-app-download.d.html",
  "text": "新浪新闻"
 }, {
  "href": "https://finance.sina.com.cn/mobile/comfinanceweb.shtml",
  "text": "新浪财经"
 }, {
  "href": "https://m.sina.com.cn/m/sinasports.shtml",
  "text": "新浪体育"
 }, {
  "href": "https://tousu.sina.com.cn/about_app/index?frompage=heimaopc",
  "text": "黑猫投诉"
 }, {
  "href": "http://blog.sina.com.cn/lm/z/app/",
  "text": "新浪博客"
 }, {
  "href": "https://games.sina.com.cn/o/kb/12392.shtml",
  "text": "新浪游戏"
 }, {
  "href": "https://zhongce.sina.com.cn/about/app",
  "text": "新浪众测"
 }, {
  "href": "https://mail.sina.com.cn/client/mobile/index.php?suda-key=mail_app&suda-value=login",
  "text": "新浪邮箱客户端"
 }, {
  "href": "javascript:;",
  "text": "关闭置顶"
 }, {

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悟空资源网 html js去除html标签-HtmlParse:超轻量级HTML文件解析和爬取工具 https://www.wkzy.net/game/187418.html

常见问题

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务