利用零宽度字符防止被爬虫

kvavilang · 发表于 2020-4-4 17:39:56

大佬就是厉害

helone · 发表于 2020-4-4 17:47:17

奇才，你以为百度蜘蛛能识别出来url吗？那这样还不如关站呢

情空明月 · 发表于 2020-4-4 17:48:36

我只觉得用户复制的时候会草泥马奔腾

zimuxiaosheng · 发表于 2020-4-4 17:50:09

小脑袋困掉了发表于 2020-4-3 19:18
是可以看到，但是复制到浏览器里打不开。

问题是爬虫又不是普通访客，不都是从控制台抓信息吗
这能防住啥啊？你以为爬虫都是人工复制的吗？

llyang · 发表于 2020-4-4 19:10:47

本帖最后由 llyang 于 2020-4-4 19:12 编辑

我用正则，没有去掉零字节

复制代码

复制代码

利姆露 · 发表于 2020-4-4 20:00:02

提示: 作者被禁止或删除内容自动屏蔽

小脑袋困掉了 · 发表于 2020-4-4 22:12:44

zimuxiaosheng 发表于 2020-4-4 17:50
问题是爬虫又不是普通访客，不都是从控制台抓信息吗
这能防住啥啊？你以为爬虫都是人工复制的吗？ ...

爬虫不都是用正则检测链接的吗？这个用正则检测不到啊。。

hehe · 发表于 2020-4-4 22:26:14

提示: 作者被禁止或删除内容自动屏蔽

夏生啊 · 发表于 2020-4-4 22:37:08

re.sub('\u200b','', s)

yjsx86 · 发表于 2020-4-4 23:23:34

本帖最后由 yjsx86 于 2020-4-4 23:26 编辑

import requests, string
session = requests.session()
r = session.get("https://443502.xyz/thread-668846-1-1.html")
rs = ""
for x in r.text:
if '\u4e00' <= x <= '\u9fff' or \
x in '''!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789
''':
rs += x
print(rs)

复制代码

		自动登录	找回密码
密码			注册

利姆露利姆露当前离线积分 3042	36^# 发表于 2020-4-4 20:00:02 来自手机 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
利姆露利姆露当前离线积分 3042
	回复支持反对举报

[疑问] 利用零宽度字符防止被爬虫