这个教程讲解下如何用fddler ,找到页面的真是地址同样也是可以找到页面隐藏的内容,

两者原理是一样的,在页面能看到的信息,页面源代码却看不到,也就是这样的信息其实并不在这个页面上,

而是通过一些方法调用来显示在这个页面的,要采集都是要找到真实地址。所以首先需要知道FIddler的使用(http://faq.locoy.com/q-753.html)。

正如大家所知,采集器是根据页面源代码采集的,但是有的时候,在浏览器明明可以看到的,却在页面源代码找不到信息呢,如这个新浪的滚动新闻:

http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1,

假如你要采集这个怎么办,打开看下页面源代码里面找不到新闻内容的地址,这样的情况的话,

大部分情况我们看到的都不是我们要采集的真是地址,我们要用fiddler去找下,这些新闻地址的页面到底在那个页面。

第一步我们把fiidler软件打开,下图我会把fiddler重要的一个地方用红色标志出来,你们就按照图上的设置下fiddler。

没有抓到任何数据的fiddler工具界面如下图:

image

第二步,抓包,就是刷新下我们要抓包的页面地址

第三步,停止抓包为了防止抓到很多无用的东西我们可以让fiddler 暂停抓包按钮在左下方如下图:
clip_image003

点击下上图的位置就可以了,就是在fiddler左下角,点击下那个单词并消失,就停止抓包了,再点击此处空白处就会又出现,就会从新抓包。

第四步,查找页面真是地址

现在是我们知道内容地址来查找他在那个页面,我们在列表页那里顺便访问一个内容地址找到他的地址是什么如下图:
clip_image004

这个地址是http://tech.sina.com.cn/t/2013-04-01/16548201408.shtml 这个是吧,然后我们选择地址种的一部分到fiddler里面去查找,

"ctrl+f"弹出查找的界面,一般选择数字或者英文,所以我们选择一些特殊的字符去查找,我们就选择后面的数字 “16548201408”

image

上图黄色是我们我们找到包含“16548201408”字符的地址了,这里就可以想到这个地址就是我们要找到的真实地址了,下面就需要验证下

在fiddler里查看页面信息,看下是否是我们在页面看到的文章,如下图:

image

那么fiddler抓到的这个地址,就是滚动新闻列表页地址:http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1&r=0.46109949907658204

发表评论

后才能评论

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源