当前位置: 首页 > linux, 系统工具 > 正文

wget整站下载被robots.txt阻挡时的处理方法

[摘要]wget功能非常强大,可以使用wget对整站进行递归下载,但是有时候一些站点会通过配置robots.txt对访问进行限制,这里讲一个小技巧可以避开robots.txt的限制。

事件的背景是我想从mirrors.163.com的某个目录批量下载一些东西回来,比如:
wget -r -p -np http://mirrors.163.com/debian/dists/jessie/main/installer-amd64/
想法是对installer-amd64目录递归下载,但实际上wget只下载了一个index.html和一个robots.txt,下载就被终止了。
看了一下robots.txt的内容:

于是查找了一番,发现了wget的强大之处,使用如下命令即可:

顺便贴出wget的使用方法:

本文固定链接: https://www.sudops.com/wget-recursive-download-blocked-by-robots-txt.html | 运维·速度

该日志由 Fisher 于2016年11月22日发表在 linux, 系统工具 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
原创文章转载请注明: wget整站下载被robots.txt阻挡时的处理方法 | 运维·速度
关键字: ,

wget整站下载被robots.txt阻挡时的处理方法:等您坐沙发呢!

发表评论


Time limit is exhausted. Please reload the CAPTCHA.

快捷键:Ctrl+Enter