全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
打印 上一主题 下一主题

[疑问] 利用零宽度字符防止被爬虫

  [复制链接]
31#
发表于 2020-4-4 17:39:56 | 只看该作者
大佬就是厉害
32#
发表于 2020-4-4 17:47:17 | 只看该作者
奇才,你以为百度蜘蛛能识别出来url吗?那这样还不如关站呢
33#
发表于 2020-4-4 17:48:36 来自手机 | 只看该作者
我只觉得用户复制的时候会草泥马奔腾
34#
发表于 2020-4-4 17:50:09 | 只看该作者
小脑袋困掉了 发表于 2020-4-3 19:18
是可以看到,但是复制到浏览器里打不开。

问题是爬虫又不是普通访客,不都是从控制台抓信息吗
这能防住啥啊?你以为爬虫都是人工复制的吗?
35#
发表于 2020-4-4 19:10:47 | 只看该作者
本帖最后由 llyang 于 2020-4-4 19:12 编辑

我用正则,没有去掉零字节

  1. abc="h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m"
  2. aaa=$(echo $abc | sed 's_\s__g')
  3. echo $abc
  4. echo $aaa
复制代码


  1. abc="h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m"
  2. echo "${abc//[^:/\w]/}"
  3. echo $abc
复制代码
36#
发表于 2020-4-4 20:00:02 来自手机 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
37#
 楼主| 发表于 2020-4-4 22:12:44 | 只看该作者
zimuxiaosheng 发表于 2020-4-4 17:50
问题是爬虫又不是普通访客,不都是从控制台抓信息吗
这能防住啥啊?你以为爬虫都是人工复制的吗? ...

爬虫不都是用正则检测链接的吗?这个用正则检测不到啊。。
38#
发表于 2020-4-4 22:26:14 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
39#
发表于 2020-4-4 22:37:08 | 只看该作者
re.sub('\u200b','', s)
40#
发表于 2020-4-4 23:23:34 | 只看该作者
本帖最后由 yjsx86 于 2020-4-4 23:26 编辑
  1. import requests, string


  2. session = requests.session()
  3. r = session.get("https://443502.xyz/thread-668846-1-1.html")
  4. rs = ""
  5. for x in r.text:
  6.     if '\u4e00' <= x <= '\u9fff' or \
  7.             x in '''!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789
  8. ''':
  9.         rs += x

  10. print(rs)
复制代码


您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-9-25 21:09 , Processed in 0.061192 second(s), 7 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表