全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 1637|回复: 19
打印 上一主题 下一主题

【已解决】小说爬虫疑问

[复制链接]
跳转到指定楼层
1#
发表于 2020-9-7 19:42:48 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 cgi 于 2020-9-8 09:59 编辑

我用python 写的脚本  获取了目录页面所有的 章节,然后下载的时候总是会下载红框里的章节,并不是从第一章开始下载的,有老哥指点一下吗。我相信LOC 肯定有爬虫大佬

用了@laogui 老哥说的方法 然后搜了一下 following-sibling 定位准确一些

www.biqudu.net小说下载.rar

923 Bytes, 下载次数: 40

www.biqudu.net下载一本小说.rar

953 Bytes, 下载次数: 17

问题已解决

2#
发表于 2020-9-7 19:44:20 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
3#
 楼主| 发表于 2020-9-7 19:45:59 | 只看该作者
h20 发表于 2020-9-7 19:44
这种MJJ都是收费咨询

好吧。我再去b站看看
4#
发表于 2020-9-7 19:54:09 | 只看该作者
大概看了下,你的解析写的有问题,第一个穿的就是红框里的网址,肯定下载的也是那里的
5#
发表于 2020-9-7 20:09:14 | 只看该作者
43行改为
  1. for href in href_s[12:]:
复制代码
6#
发表于 2020-9-7 20:13:20 | 只看该作者

这样没从根本上解决问题,换个小说又要换,而且那部分内容还少了
7#
发表于 2020-9-7 20:18:59 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
8#
发表于 2020-9-7 20:19:14 | 只看该作者
本帖最后由 518 于 2020-9-7 20:22 编辑
vagrantear 发表于 2020-9-7 20:13
这样没从根本上解决问题,换个小说又要换,而且那部分内容还少了


好吧  那就改为
  1. for href in href_s[min(12,len(href_s)//2):]:
复制代码
9#
发表于 2020-9-7 20:20:54 | 只看该作者
期待大佬出现。我赶紧mark一下。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-9-16 08:35 , Processed in 0.064824 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表