如何完整获取网站源码-python爬取的html网页与原来的不一样_一步一步教你如何搭建文章爬虫（二）下载

bendan520 网站源码

2023-09-15 0 5,621 百度已收录

立即下单

进入商城

进不了网站？换个网络试试！

明天我将学习如何将文章的网络版本下载到我的本地笔记本电脑上。

如上所述，请求网页的过程是浏览器首先向服务器请求HTML，服务器返回HTML。浏览器分析HTML，发现HTML中需要一堆js、css、图片。然后浏览器下载这些文件。最后组装成一个完整的html页面。

所以，第一步是下载这个 html。

是时候把你一直在等待的蟒蛇拿出来了。讲解时我只列出核心代码。完整的代码将在文章末尾列出，因此强烈建议在开始自己键入代码之前阅读每篇文章。同样的逻辑也适用于其他文章如何完整获取网站源码，后面不再重复。

需要使用知名的第三方库requests来模拟浏览器向Momo服务器发送和接收请求。

通过这种方式发送的请求中应该包含哪些内容？

我在上面介绍chrome开发者工具的时候就提到过这个问题。秘密就在于“标题”选项卡，如右图所示。理论上来说，最好用python原样发送chrome浏览器发送的内容，也就是改变右图所示的内容。显示的 General 和 RequestHeaders 块中的所有参数都会被发送出去。但大多数时候这是没有必要的，特别是对于get请求，通常只需要几个参数，并且请注意User-Agent必须更改为与chrome相同。其他的细节我就不多说了如何完整获取网站源码，多做自然就明白了。

简单的注释会直接在代码中列出，复杂的注释会在代码前面用文字解释。另外，本文为多平台发表的稿件。某些平台可能会显示带有无序缩进的代码。当你注意到运行代码并出现错误时，请遵循“相信书本胜于无书本”的批判心态。

#不要忘记在下面一行中导入请求 #定义一个保存文件的函数 defSaveFile(fpath,fileContent):withopen(fpath,'w',encoding='utf-8')asf:f.write(fileContent)#定义一个下载并保存url网页的方法 defDownLoadHtml(url): #构造请求头 headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.36(KHTML,likeGecko)Chrome/59.0 .3071.115Safari/537.36','接受':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','连接':'保持活动状态',' Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'}#模拟浏览器发送请求response=requ

收藏 (0) 打赏

感谢您的支持，我会继续努力的!