全球主机交流论坛

标题: 一个小图站的爬虫 [打印本页]

作者: qianmianyao    时间: 2021-8-13 15:16
标题: 一个小图站的爬虫
本帖最后由 qianmianyao 于 2021-8-20 08:19 编辑

其实爬这些图站的逻辑都是一个样的,没啥意思,现在的脚本是单线程,没有异步和多线程,我也是边写边学,这几天在学异步,学会了我就改一下脚本再在这个贴里发一遍,爬的是这个站:https://zazhitaotu.cc
需要的依赖是
iasyncio
os
random
re
bs4
requests
httpx
aiofiles
python 版本大于 3.7 就行
脚本地址:https://github.com/qianmianyao/python_learn/blob/main/小爬虫.py


小爬虫更新啦!
更新了异步下载,基本是3 秒一套图,提一嘴,原先的是 80 秒一套图
方案是同步请求,异步下载,全部用异步逻辑太复杂,其次是会被网站拒绝链接。
作者: 我是坏虫    时间: 2021-8-13 15:21
提示: 作者被禁止或删除 内容自动屏蔽
作者: optimism    时间: 2021-8-13 15:22
技术贴必顶
作者: 萌墨    时间: 2021-8-13 15:25
虽然写得很简单,不过还是鼓励继续迭代更新
作者: 专业黑人抬棺    时间: 2021-8-13 15:32
哎呀,漏点的啊,我喜欢,收下了
作者: llol9420    时间: 2021-8-13 15:36
进来学习一下技术
作者: qianmianyao    时间: 2021-8-13 17:15
萌墨 发表于 2021-8-13 15:25
虽然写得很简单,不过还是鼓励继续迭代更新

估计更新也就是优化一下爬取速度了,不过大多数图站的模式差不多,改一下匹配方式可以通用了
作者: 萌墨    时间: 2021-8-13 17:27
qianmianyao 发表于 2021-8-13 17:15
估计更新也就是优化一下爬取速度了,不过大多数图站的模式差不多,改一下匹配方式可以通用了 ...

要稳定的话我还是建议单线程爬取,设置时间延迟,还又可以按照底部页码进行爬取,而不是通过 固定url+数字
匹配方式可以换着其它的 正则,xpath,bs4,可以换着使用看看哪个效率高,熟悉一下

进阶:多线程,协程,代理ip,对网站更新的内容进行爬取

scarpy框架是个不错的东西
作者: qianmianyao    时间: 2021-8-20 07:34
异步速度是真的快




欢迎光临 全球主机交流论坛 (https://443502.xyz/) Powered by Discuz! X3.4