如何编写脚本来实现在某网站搜索并下载结果
对于某个数据库网站,里面有若干搜索选项,我现只能一个一个地把各个选项填进去再点搜索,然后再把结果下载下来
那能不能编写一个shell脚本,让它在一个文件中读取我要查询的内容,然后到该网站搜索,并把结果保存到机器上呢?
理论上是可以的,俗话说只有想不到,没有做不到,呵呵,那如何实现,还望大侠们指教!! 可能还要看网站是用什么语言写的吧,给搜索页面传参数才能搜索啊。 搞定了,呵呵 请不吝分享经验 :-D 举一个例子吧:
比如我想从
http://nedwww.ipac.caltech.edu/forms/byname.html中寻找ngc 2128这个源
先打开这个网页----查看----页面信息---表单,可以看到有一个(表单动作),而下面的小窗口内有 (字段名称),(类型),(当前值)
这样我们就可以在行命令下实现所想任务了:
wget 表单动作?字段名称=ngc+2128
在这个具体例子中就是:
wget http://nedwww.ipac.caltech.edu/cgi-bin/nph-objsearch?objname=ngc+2128
在这只用了一个选项,即网页中的Object Name,而且表单动作与字段名称之间有一个问号,ngc与2128之间的空格在执行任务需换为+
如果再用一个搜索选项比如Equinox,那就执行:
wget http://nedwww.ipac.caltech.edu/cgi-bin/nph-objsearch?objname=ngc+2128&out_equinox=J2000.0
也就是各个选项之间用&隔开.
至于页面信息中的字段名称对应着网页上的哪个选项,可查看页面源代码的Input Parameters.
现在我们就可以写shell脚本来对大量的源进行下载了.对wget的语法比如递归,代理什么的 可man wget得到. 哦,这样。谢谢
页:
[1]