采集php-使用 PHP 蓝天捕捉明天头条新闻 AJAX 的内容

2023-08-21 0 2,561 百度已收录

的数据

明天的头条都是AJAX加载展示,按照正常的URL是无法抓取的数据,需要分析加载地址,我们以%E6%96%B0%E9%97%BB为例来收集文章列表

在Microsoft浏览器中打开链接,在控制台中右键单击“审查”切换到网络并单击XHR,以便您可以过滤图像,文件等。为什么恳求只看页面的内容

因为页面是

由 AJAX 加载,将页面拉到顶部会手动加载更多文章,控制台抓取的链接就是我们真正需要的列表页面的链接:%E6%

96%B0%E9%97%BB&autoload=true&count=20&cur_tab=1&from=search_tab

在蓝天收藏中创建任务

创建完成后采集php,点击“集合设置”,在“起始页URL”中填写抓取的链接

拾取匹配内容页面网址,标题文章网址模式为数字/点击“内容页网址”

以编写“匹配内容网址”规则

(?d+/)

这是常规规则,意味着将匹配的URL加载到捕获组content1中,然后在下面填写【content1】,即内容中对应content1,获取内容页面链接

您可以点击测试以查看链接是否已成功爬网

爬网成功后,您可以开始提取内容

点击“获取内容”,在数组列表一侧添加默认数组采集php,如标题、正文等即可智能识别,如果需要准确,也可以自行编辑数组,支持正则表达式、xpath、JSON 等匹配内容

我们需要抓取文章的标题和正文,因为它是由 AJAX 显示的,所以我们必须编写匹配内容的规则,分析文章的源代码:并找到文章的位置

标题规则:文章信息s*:s*{s*

标题:s*'[内容 1]',正文规则:内容s*

:s*'

[内容 1]',s*组 ID规则

必须是唯一的,否则它将匹配其他内容,将规则添加到数组中,并获取方法选择规则匹配:

规则编译完成后,点击保存,点击“测试”看看效果如何

规则正确,抓取正常,捕获的数据也可以发布到CMS系统,直接进入数据库,保存为excel文件等,点击顶部导航栏中的“发布设置”,好了,明天头条的收集就到此结束了,大家不妨试试!

php获取明天、昨天、上周、本月的起止时间戳的方式主要利用了php的时间函数mktime。 我们先进入正题来说明如何使用mktime获取明天、昨天、上周、本月的开始和结束时间戳,然后介绍mktime函数的作用和使用方法。

//php 获取明天的开始时间戳和结束时间戳

$beginToday=mktime(0,0,0,日期('m'),日期('d'),日期('Y'));

$endToday=mktime(0,0,0,日期('m'),日期('d')+1,日期('Y'))-1;

//php获取今天的开始时间戳和结束时间戳

$beginYesterday=mktime(0,0,0,日期('m'),日期('d')-1,日期('Y'));

$endYesterday=mktime(0,0,0,日期('m'),日期('d'),日期('Y'))-1;

//php获取上周的开始时间戳和结束时间戳

$beginLastweek=mktime(0,0,0,日期('m'),日期('d')-日期('w')+1-7,日期('Y'));

$endLastweek=mktime(23,59,59,日期('m'),日期('d')-日期('w')+7-7,日期('Y'));

//php获取本月的开始和结束时间戳

采集php-使用 PHP 蓝天捕捉明天头条新闻 AJAX 的内容

$beginThismonth=mktime(0,0,0,date('m'),1,date('Y'));

$endThismonth=mktime(23,59,59,日期('m'),日期('t'),日期('Y'));

PHPmktime() 函数用于返回日期的 Unix 时间戳。

句型

mktime(小时,分钟,秒,月,日,年,is_dst)

参数说明

小时是可选的。 指定时间。

分钟是可选的。 指定分钟。

第二个是可选的。 指定秒数。

月份是可选的。 将月份指定为数字。

采集php-使用 PHP 蓝天捕捉明天头条新闻 AJAX 的内容

日期是可选的。 规定的天数。

年份是可选的。 指定年份。 在个别系统上,合法值在 1901-2038 之间。 然而时间戳php,这个限制在 PHP5 中不再存在。

is_dst

选修的。 如果时间处于夏令时 (DST) 期间,则设置为 1,否则设置为 0,如果未知,则设置为 -1。

is_dst 参数自 5.1.0 起已弃用。 因此,应使用新的时区处理功能。

采集php-使用 PHP 蓝天捕捉明天头条新闻 AJAX 的内容

用法

该参数始终表示 GMT 日期,因此 is_dst 对结果没有影响。

参数可以从右到左留空,留空参数将设置为对应的当前GMT 值。

注意时间戳php,在PHP5.1之前,如果该函数的参数非法,则会返回false。

另一件需要注意的是,该函数对于日期算术和验证非常有用。 它可以手动校准越界输入,例如:

回声(日期(“​​MdY”,mktime(0,0,0,12,36,2001)));

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悟空资源网 php 采集php-使用 PHP 蓝天捕捉明天头条新闻 AJAX 的内容 https://www.wkzy.net/game/130852.html

常见问题

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务