全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
12
返回列表 发新帖
楼主: cgi
打印 上一主题 下一主题

【已解决】小说爬虫疑问

[复制链接]
11#
发表于 2020-9-7 20:56:28 | 只看该作者
你得学一点html
12#
发表于 2020-9-7 21:00:56 | 只看该作者
dl中把两个dt中间内容删掉就行了
14#
发表于 2020-9-7 21:14:35 | 只看该作者
要不要试试参考一下阅读(安卓APP github或者酷安可下载)的书源?
我记得阅读的书源是有章节获取规则的
阅读:https://github.com/gedoor/legado
源仓库:http://yck.mumuceo.com/
15#
发表于 2020-9-7 21:24:13 | 只看该作者

  1. href_s = sel.css('dd > a::attr(href)')
复制代码

改为
  1. href_s = sel.xpath('//dt[2]/following-sibling::*').css('dd > a::attr(href)')
复制代码

试试看
16#
 楼主| 发表于 2020-9-8 08:50:41 | 只看该作者

成了,多谢老哥,xpath和CSS 还可以一起用。
17#
 楼主| 发表于 2020-9-8 08:54:37 | 只看该作者

这个切片的意思就是前面12行不要是吧
18#
发表于 2020-9-8 08:56:02 | 只看该作者
马克一下,等大佬出现
19#
发表于 2020-9-8 09:11:18 | 只看该作者
cgi 发表于 2020-9-8 08:54
这个切片的意思就是前面12行不要是吧

是,但是有些书章节少,要取长度//2和12最小值
  1. for href in href_s[min(12,len(href_s)//2):]:
复制代码
20#
 楼主| 发表于 2020-9-8 09:33:17 | 只看该作者
518 发表于 2020-9-8 09:11
是,但是有些书章节少,要取长度//2和12最小值

哦哦。明白了,谢谢
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-9-21 18:03 , Processed in 0.066176 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表