全球主机交流论坛

标题: 请教一下火车头采集的问题 [打印本页]

作者: 夏渔    时间: 2020-3-23 20:07
标题: 请教一下火车头采集的问题
本帖最后由 夏渔 于 2020-3-23 20:28 编辑

采集的是这个网站
可能是我表达错误,不是列表页,是文章分页没法采,比如https://www.xgmn.org/Xiuren/Xiuren13413_2.html
分页规则设置了,数据来源也设置分页源码了,循环匹配也设置,还是没法采集分页内容


有大佬帮我看一下怎么弄吗
作者: 一个不知名网友    时间: 2020-3-23 20:14
提示: 作者被禁止或删除 内容自动屏蔽
作者: bluevm    时间: 2020-3-23 20:18
没用过工具,只是这种我一般都FOR循环

https://www.xgmn.org/Xiuren/page_变量+1.html
作者: 英梨梨    时间: 2020-3-23 20:24



作者: 夏渔    时间: 2020-3-23 20:25
本帖最后由 夏渔 于 2020-3-23 20:26 编辑
bluevm 发表于 2020-3-23 20:18
没用过工具,只是这种我一般都FOR循环

https://www.xgmn.org/Xiuren/page_变量+1.html ...


不是列表页,是文章分页没法采,比如https://www.xgmn.org/Xiuren/Xiuren13413_2.html
作者: 夏渔    时间: 2020-3-23 20:28
英梨梨 发表于 2020-3-23 20:24

可能是我表达错误,不是列表页,是文章分页没法采,比如https://www.xgmn.org/Xiuren/Xiuren13413_2.html
作者: bluevm    时间: 2020-3-23 20:28
夏渔 发表于 2020-3-23 20:25
不是列表页,是文章分页没法采,比如https://www.xgmn.org/Xiuren/Xiuren13413_2.html ...

一样的道理啊

FOR循环

https://www.xgmn.org/Xiuren/Xiuren13413_变量.html

简单点的话遇到404 之类的 就是最后了

或者第一页的时候匹配出来最后一页的页码ID
作者: 木易酱    时间: 2020-3-23 22:13
9.x分页采集有问题,
返回200状态码,就是获取不到内容。

换8.x就好了
作者: luceos    时间: 2020-3-23 22:16
今天看到两则说pyone因为采集被抓了?
作者: 夏渔    时间: 2020-3-23 22:40
木易酱 发表于 2020-3-23 22:13
9.x分页采集有问题,
返回200状态码,就是获取不到内容。


谢谢大佬了




欢迎光临 全球主机交流论坛 (https://443502.xyz/) Powered by Discuz! X3.4