haulm 发表于 2008-10-3 05:23:36

Linux下用命令下载全网站

网上抄来的,之前还真不知道wget有这么强

可以使用下面的命令 wget -r -p -k -np http://learn.tsinghua.edu.cn/homepage/2001315450 , -r 表示递归下载,会下载所有的链接,不过要注意的是,不要单独使用这个参数,因为如果你要下载的网站也有别的网站的链接,wget也会把别的网站的东西下载下来,由于互联网的特性,很有可能你会把整个互联网给下载下来 --,所以要加上 -np这个参数,表示不下载别的站点的链接. -k表示将下载的网页里的链接修改为本地链接.-p获得所以显示网页所需的元素,比如图片什么的.
另外还有其他的一些参数可以使用:

-c表示断点续传

-t 100表示重试100次,-t 0表示无穷次重试

另外可以将要下载的url写到一个文件中,每个url一行,使用这样的命令 wget -i download.txt.

--reject=avi,rmvb 表示不下载avi,rmvb的文件,--accept=jpg,jpeg,表示只下载jpg,jpeg的文件.

可以在用户目录下建立一个.wgetrc的文件(windows里面好像不能直接建立这样的文件,windows会认为没有文件名--),里面写上 http-proxy = 123.456.78.9:80,然后在加上参数 --proxy=on,如果需要密码,再加上下面的参数 --proxy-user=username, --proxy-passwd=password

hillwood 发表于 2008-10-3 13:22:28

欢迎楼主从火星归来。单线程的东西总觉得慢。

haulm 发表于 2008-10-3 13:34:42

多线程只适用于下载单一大文件,wget和mytget各有所长。

jiangtao9999 发表于 2008-10-3 14:10:11

原帖由 haulm 于 2008-10-3 01:34 PM 发表 http://www.linuxfans.org/bbs/images/common/back.gif
多线程只适用于下载单一大文件,wget和mytget各有所长。
我觉得恰恰相反,现在的网络环境下载单一大文件才适合单线程。多文件,尤其是一堆小文件才需要多线程。

hillwood 发表于 2008-10-3 14:19:09

原帖由 jiangtao9999 于 2008-10-3 14:10 发表 http://www.linuxfans.org/bbs/images/common/back.gif

我觉得恰恰相反,现在的网络环境下载单一大文件才适合单线程。多文件,尤其是一堆小文件才需要多线程。
就中国的网络状况,单线程还是算了吧,不过多线程容易出错。

jiangtao9999 发表于 2008-10-3 14:22:23

原帖由 hillwood 于 2008-10-3 02:19 PM 发表 http://www.linuxfans.org/bbs/images/common/back.gif

就中国的网络状况,单线程还是算了吧,不过多线程容易出错。
你看看下载一堆小文件和一个大文件的网络状态知道了。
小文件更多的是等待数据传输,大文件一般单线程可以稳定速度下载,我建议是大文件如果单线没有达到最高带宽,一般开 2 - 3 线程就行了。
小文件根据平均速度,5 - 10 线程为好。

stdio 发表于 2008-10-3 14:25:29

jiangtao 所言极是

haulm 发表于 2008-11-16 09:02:40

自己顶了。

jiangtao9999 发表于 2008-11-16 10:03:52

找个皮筋做个弹弓崩楼上。

rikhtdss 发表于 2008-12-3 22:32:34

楼上几位太小看wget了,我用它在百度下歌很快的。
同时用BT下电影的时候,再打开wget下载其它东西立刻就可以看到带宽一下子被wget占掉大部分,而BT则变成龟速。

jiangtao9999 发表于 2008-12-3 23:13:35

这里没有讨论下歌,而是在整体下载网站。

Fujinsan 发表于 2008-12-9 10:06:16

我觉得最好的下载工具应该是允许用户编写脚本来判断哪些该下哪些不该下,哪些页面该解析,哪些页面不该解析,甚至于可以基于文字内容、或者调用图片识别程序来进行更智能化的判断。

npcomet 发表于 2008-12-9 10:33:55

当前技术下,越智能的越容易出错

ps:我是来拜神的

jiangtao9999 发表于 2008-12-9 19:38:11

原帖由 Fujinsan 于 2008-12-9 10:06 AM 发表 http://www.linuxfans.org/bbs/images/common/back.gif
我觉得最好的下载工具应该是允许用户编写脚本来判断哪些该下哪些不该下,哪些页面该解析,哪些页面不该解析,甚至于可以基于文字内容、或者调用图片识别程序来进行更智能化的判断。 ...
:shock: 8O
老富!?!?!?!?!?!?!?!?!?!?!?!?!?
页: [1]
查看完整版本: Linux下用命令下载全网站