如何完整获取网站源码-python爬取的html网页与原来的不一样_一步一步教你如何搭建文章爬虫(二)下载

明天我将学习如何将文章的网络版本下载到我的本地笔记本电脑上。

如上所述,请求网页的过程是浏览器首先向服务器请求HTML,服务器返回HTML。 浏览器分析HTML,发现HTML中需要一堆js、css、图片。 然后浏览器下载这些文件。 最后组装成一个完整的html页面。

所以,第一步是下载这个 html。

是时候把你一直在等待的蟒蛇拿出来了。 讲解时我只列出核心代码。 完整的代码将在文章末尾列出,因此强烈建议在开始自己键入代码之前阅读每篇文章。 同样的逻辑也适用于其他文章如何完整获取网站源码,后面不再重复。

需要使用知名的第三方库requests来模拟浏览器向Momo服务器发送和接收请求。

通过这种方式发送的请求中应该包含哪些内容?

我在上面介绍chrome开发者工具的时候就提到过这个问题。 秘密就在于“标题”选项卡,如右图所示。 理论上来说,最好用python原样发送chrome浏览器发送的内容,也就是改变右图所示的内容。 显示的 General 和 RequestHeaders 块中的所有参数都会被发送出去。 但大多数时候这是没有必要的,特别是对于get请求,通常只需要几个参数,并且请注意User-Agent必须更改为与chrome相同。 其他的细节我就不多说了如何完整获取网站源码,多做自然就明白了。

简单的注释会直接在代码中列出,复杂的注释会在代码前面用文字解释。 另外,本文为多平台发表的稿件。 某些平台可能会显示带有无序缩进的代码。 当你注意到运行代码并出现错误时,请遵循“相信书本胜于无书本”的批判心态。

#不要忘记在下面一行中导入请求 #定义一个保存文件的函数 defSaveFile(fpath,fileContent):withopen(fpath,'w',encoding='utf-8')asf:f.write(fileContent)#定义一个下载并保存url网页的方法 defDownLoadHtml(url): #构造请求头 headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.36(KHTML,likeGecko)Chrome/59.0 .3071.115Safari/537.36','接受':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','连接':'保持活动状态',' Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'}#模拟浏览器发送请求response=requ

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悟空资源网 网站源码 如何完整获取网站源码-python爬取的html网页与原来的不一样_一步一步教你如何搭建文章爬虫(二)下载 https://www.wkzy.net/game/196585.html

常见问题

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务