xtwn 发表于 2004-12-1 11:19:17

如何编写脚本来实现在某网站搜索并下载结果

对于某个数据库网站,里面有若干搜索选项,
我现只能一个一个地把各个选项填进去再点搜索,然后再把结果下载下来


那能不能编写一个shell脚本,让它在一个文件中读取我要查询的内容,然后到该网站搜索,并把结果保存到机器上呢?


理论上是可以的,俗话说只有想不到,没有做不到,呵呵,那如何实现,还望大侠们指教!!

Bluedata 发表于 2004-12-1 11:26:37

可能还要看网站是用什么语言写的吧,给搜索页面传参数才能搜索啊。

xtwn 发表于 2004-12-1 11:47:39

搞定了,呵呵

troll 发表于 2004-12-1 11:57:06

请不吝分享经验 :-D

xtwn 发表于 2004-12-1 14:36:35

举一个例子吧:
比如我想从
http://nedwww.ipac.caltech.edu/forms/byname.html中寻找ngc 2128这个源
                                                                                 
先打开这个网页----查看----页面信息---表单,可以看到有一个(表单动作),而下面的小窗口内有 (字段名称),(类型),(当前值)
                                                                                 

这样我们就可以在行命令下实现所想任务了:
                                                                                 
wget 表单动作?字段名称=ngc+2128

在这个具体例子中就是:
wget http://nedwww.ipac.caltech.edu/cgi-bin/nph-objsearch?objname=ngc+2128
                                                                                 
在这只用了一个选项,即网页中的Object Name,而且表单动作与字段名称之间有一个问号,ngc与2128之间的空格在执行任务需换为+

如果再用一个搜索选项比如Equinox,那就执行:
wget http://nedwww.ipac.caltech.edu/cgi-bin/nph-objsearch?objname=ngc+2128&out_equinox=J2000.0
                                                                                 
也就是各个选项之间用&隔开.
                                                                                 
至于页面信息中的字段名称对应着网页上的哪个选项,可查看页面源代码的Input Parameters.
                                                                                 
现在我们就可以写shell脚本来对大量的源进行下载了.对wget的语法比如递归,代理什么的 可man wget得到.

troll 发表于 2004-12-1 14:41:03

哦,这样。谢谢
页: [1]
查看完整版本: 如何编写脚本来实现在某网站搜索并下载结果