全球主机交流论坛

标题: 一个小图站的爬虫 [打印本页]

作者: qianmianyao 时间: 2021-8-13 15:16
标题: 一个小图站的爬虫
本帖最后由 qianmianyao 于 2021-8-20 08:19 编辑

其实爬这些图站的逻辑都是一个样的，没啥意思，现在的脚本是单线程，没有异步和多线程，我也是边写边学，这几天在学异步，学会了我就改一下脚本再在这个贴里发一遍，爬的是这个站：https://zazhitaotu.cc
需要的依赖是
iasyncio
os
random
re
bs4
requests
httpx
aiofiles
python 版本大于 3.7 就行
脚本地址:https://github.com/qianmianyao/python_learn/blob/main/小爬虫.py

小爬虫更新啦！
更新了异步下载，基本是3 秒一套图,提一嘴，原先的是 80 秒一套图
方案是同步请求，异步下载，全部用异步逻辑太复杂，其次是会被网站拒绝链接。

作者: 我是坏虫 时间: 2021-8-13 15:21
提示: 作者被禁止或删除内容自动屏蔽

作者: optimism 时间: 2021-8-13 15:22
技术贴必顶

作者: 萌墨 时间: 2021-8-13 15:25
虽然写得很简单,不过还是鼓励继续迭代更新

作者: 专业黑人抬棺 时间: 2021-8-13 15:32
哎呀，漏点的啊，我喜欢，收下了

作者: llol9420 时间: 2021-8-13 15:36
进来学习一下技术

作者: qianmianyao 时间: 2021-8-13 17:15

萌墨发表于 2021-8-13 15:25
虽然写得很简单,不过还是鼓励继续迭代更新

估计更新也就是优化一下爬取速度了，不过大多数图站的模式差不多，改一下匹配方式可以通用了

作者: 萌墨 时间: 2021-8-13 17:27

qianmianyao 发表于 2021-8-13 17:15
估计更新也就是优化一下爬取速度了，不过大多数图站的模式差不多，改一下匹配方式可以通用了 ...

要稳定的话我还是建议单线程爬取,设置时间延迟,还又可以按照底部页码进行爬取,而不是通过固定url+数字
匹配方式可以换着其它的正则,xpath,bs4,可以换着使用看看哪个效率高,熟悉一下

进阶:多线程,协程,代理ip,对网站更新的内容进行爬取

scarpy框架是个不错的东西

作者: qianmianyao 时间: 2021-8-20 07:34
异步速度是真的快

欢迎光临全球主机交流论坛 (https://443502.xyz/)