bbbbb111115 发表于 2014-10-13 16:19:32

继续是采集的问题,如何获得google、bing的缓存页地址

今天开始尝试用火车头采集google、bing的缓存页(即快照),但是遇到问题了,缓存页都需要点开下来箭头才能显示出来,在代码里又不能看到,不知道怎么获取这个地址,有高手能解决吗

月光飞燕 发表于 2014-10-13 18:33:49

直接采集目标站,而不是快照

bbbbb111115 发表于 2014-10-13 21:27:38

月光飞燕 发表于 2014-10-13 18:33 static/image/common/back.gif
直接采集目标站,而不是快照

例如ezinearticles.com这样的网站会有限制的,直接采集需要的IP多还是采集bing的IP多,就这个问题纠结

billy 发表于 2014-10-13 22:03:51

以前采集用过有道搜索,限制低,现在不知。

无言 发表于 2014-10-13 23:49:08

抓包,快照地址都在json里面

吼吼哈哈 发表于 2014-10-13 23:56:04

更改useragent为文本浏览器,比如说w3m 或lynx

普通浏览器页面里面也有,仔细找

不建议采缓存,不全

bbbbb111115 发表于 2014-10-14 09:09:59

无言 发表于 2014-10-13 23:49 static/image/common/back.gif
抓包,快照地址都在json里面

可以加我,教教我怎么抓包,我现在都研究,就是不懂怎么抓

无言 发表于 2014-10-14 21:22:59

bbbbb111115 发表于 2014-10-14 09:09 static/image/common/back.gif
可以加我,教教我怎么抓包,我现在都研究,就是不懂怎么抓

用fiddler抓包,可以百度一下怎么用

页: [1]
查看完整版本: 继续是采集的问题,如何获得google、bing的缓存页地址