全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 705|回复: 9
打印 上一主题 下一主题

请教一下火车头采集的问题

[复制链接]
跳转到指定楼层
1#
发表于 2020-3-23 20:07:59 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 夏渔 于 2020-3-23 20:28 编辑

采集的是这个网站
可能是我表达错误,不是列表页,是文章分页没法采,比如https://www.xgmn.org/Xiuren/Xiuren13413_2.html
分页规则设置了,数据来源也设置分页源码了,循环匹配也设置,还是没法采集分页内容


有大佬帮我看一下怎么弄吗
2#
发表于 2020-3-23 20:14:23 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
3#
发表于 2020-3-23 20:18:09 | 只看该作者
没用过工具,只是这种我一般都FOR循环

https://www.xgmn.org/Xiuren/page_变量+1.html
4#
发表于 2020-3-23 20:24:40 | 只看该作者


5#
 楼主| 发表于 2020-3-23 20:25:14 | 只看该作者
本帖最后由 夏渔 于 2020-3-23 20:26 编辑
bluevm 发表于 2020-3-23 20:18
没用过工具,只是这种我一般都FOR循环

https://www.xgmn.org/Xiuren/page_变量+1.html ...


不是列表页,是文章分页没法采,比如https://www.xgmn.org/Xiuren/Xiuren13413_2.html
6#
 楼主| 发表于 2020-3-23 20:28:07 | 只看该作者

可能是我表达错误,不是列表页,是文章分页没法采,比如https://www.xgmn.org/Xiuren/Xiuren13413_2.html
7#
发表于 2020-3-23 20:28:20 | 只看该作者
夏渔 发表于 2020-3-23 20:25
不是列表页,是文章分页没法采,比如https://www.xgmn.org/Xiuren/Xiuren13413_2.html ...

一样的道理啊

FOR循环

https://www.xgmn.org/Xiuren/Xiuren13413_变量.html

简单点的话遇到404 之类的 就是最后了

或者第一页的时候匹配出来最后一页的页码ID
8#
发表于 2020-3-23 22:13:36 | 只看该作者
9.x分页采集有问题,
返回200状态码,就是获取不到内容。

换8.x就好了
9#
发表于 2020-3-23 22:16:09 | 只看该作者
今天看到两则说pyone因为采集被抓了?
10#
 楼主| 发表于 2020-3-23 22:40:38 来自手机 | 只看该作者
木易酱 发表于 2020-3-23 22:13
9.x分页采集有问题,
返回200状态码,就是获取不到内容。


谢谢大佬了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-9-23 13:50 , Processed in 0.117967 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表