如今,国外的新闻网站上,充斥着太多杂乱的广告和其他不相关的内容。
GeneralNewsExtractor (GNE) 是一个通用新闻网站文本提取模块。 它输入新闻网页的HTML,输出文本内容、标题、作者、发布时间、文本中的图片地址以及文本所在的标签源代码。 GNE在提取明日头条、网易新闻、有民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个英文新闻网站方面非常有效网站抓取源码,并且可以达到几乎100%的准确率。 利用Python库GEN,可以轻松实现新闻内容的提取任务。
在ChatGPT中输入以下提示词:
编写一段Python代码,实现从新闻网站中提取文本的任务。 具体步骤如下:
用户输入新闻页面的URL,获取该URL;
使用gne库(GeneralNewsExtractor)提取标题和正文内容;
将提取的内容保存到盘符上的excel文件中,excel文件的标题为News,新闻标题放在第一列,新闻内容放在第二列;
程序运行后网站抓取源码,出现错误信息:
403 禁止
您无权访问此服务器上的 URL。
returnedbyUAACL=黑名单
PoweredbyTengineCDNRequestId:a3b5179f16863107904525739e