|
6#
楼主 |
发表于 2011-4-22 16:41:34
|
只看该作者
按照下面这个模板怎么抓去不到
curl -o index.html http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X
findstr /i “ldwc201108" index.html>tmp.txt
for /f "delims=><= tokens=5,6" %%i in ('findstr /i “ldwc201108" index.html') do (
title 正在下载网页 http://xhs.vip.qikan.com/%%~i
curl --create-dirs -o html\%%~nxi http://xhs.vip.qikan.com/%%~i
)
第三步分隔符的选取,选哪几列可能不正确,可是有些网站我已经抓取到文件夹html,但是里面的html文件只有3KB,根本没有正文,郁闷啊!
还有一个网站,我都已经把html宇txt文件分开到不同文件夹了,但是利用cd.>1234.txt
for %%i in (txt\*.txt) do (
title 正在整理 %%~nxi
echo.>>1234.txt
findstr /ib "1234" %%i>>1234.txt
echo.>>1234.txt
findstr /ibc:" " %%i>>1234.txt
)
合并时得到的是一个空的1234.txt文件,郁闷啊!
[ 本帖最后由 2011198976 于 2011-4-22 16:43 编辑 ] |
|