由于该网站出现一些错误javascript 读取文件内容,导致网站被挂掉,并且存在很多恶意死链接。 找到那些死链接并不容易,需要从大量的日志内容中提取出来。
Downzz.com采取的举措是,首先通过JavaScript读取日志文本内容javascript 读取文件内容,然后借助正则表达式提取相关链接。
代码示例如下:
Downzz.com <script src="https://code.jquery.com/jquery-3.0.0.js"> var arr = []; var reg = /forum-(d){7,}-1.html/g function jsReadFiles(files) { if (files.length) { var file = files[0]; var reader = new FileReader(); if (/text+/.test(file.type)) { reader.onload = function () { arr = this.result.match(reg); console.log(arr.length) for (var index = 0; index < arr.length; index++) { $('body').append("http://www.downzz.com/" + arr[index] + "
"); } } reader.readAsText(file); } } }上面的代码可以读取文本文件的内容,然后提取符合要求的链接,并将其显示在网页上。
该网站利用这些方法快速提取了40万个死链接。