演示网站:华律网

演示地址:https://www.66law.cn/laws/qqzr/wlqq/wlzzq/

演示内容:列表页/文章页/标题/文章/图片/文章来源/文章作者

演示软件:火车头采集器V9


1、获取分页,点击第二页,查看网址变化。如下图:

华律网简单列表页 文章页采集插图

看提示操作。

华律网简单列表页 文章页采集插图(1)

2、找到列表页中需要抓取的内容。演示为红框中的<ul>标签。如下图:华律网简单列表页 文章页采集插图(2)

3、获取红框中的<ul>,按键盘左下角Ctrl+u 查看网页源码。按Ctrl+F 查找第一篇文章标题进行定位,如下图:

华律网简单列表页 文章页采集插图(3)

4、通过Ctrl+F 查找 <ul class=”cx-tw-list li-ptb30 mt10“>  查看该标签是否是源码页中唯一性(开头字符串)。如下图:

华律网简单列表页 文章页采集插图(4)

华律网简单列表页 文章页采集插图(5)

5、通过Ctrl+F 查找 <div class=”u-page mt90 mb20 tc”>  查看该标签是否是源码页中唯一性(结束字符串)。如下图:
华律网简单列表页 文章页采集插图(6)

华律网简单列表页 文章页采集插图(7)

6、接下来需要获取内页连接。看图1,获取文章连接地址。如下图:

华律网简单列表页 文章页采集插图(8)

华律网简单列表页 文章页采集插图(9)

华律网简单列表页 文章页采集插图(10)

7、接下来拼接我们需要获取的完整地址,如下图:

华律网简单列表页 文章页采集插图(11) 华律网简单列表页 文章页采集插图(12)

拼接图下:

华律网简单列表页 文章页采集插图(13)

列表页获取测试演示图:

华律网简单列表页 文章页采集插图(14)

8、接下来获取文章页内容(双击容易文章页):

华律网简单列表页 文章页采集插图(15)

9、查看 https://www.66law.cn/laws/1582515.aspx 源代码,查找文章标题定位。如下图:

华律网简单列表页 文章页采集插图(16)

10、操作如下:

华律网简单列表页 文章页采集插图(17)

11、获取内容开头字符串:

华律网简单列表页 文章页采集插图(18)

12、获取内容结束字符串:

华律网简单列表页 文章页采集插图(19)

THML标签排除,排除不需要的标签:规则如下:

华律网简单列表页 文章页采集插图(20)

13、获取文章来源与作者,不懂看图9图10。规则如下:

华律网简单列表页 文章页采集插图(21)

华律网简单列表页 文章页采集插图(22)

14、保存测试。

华律网简单列表页 文章页采集插图(23)

发表评论

后才能评论

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源