全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 6542|回复: 50
打印 上一主题 下一主题

[疑问] 利用零宽度字符防止被爬虫

  [复制链接]
跳转到指定楼层
1#
发表于 2020-4-3 19:11:03 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
首先举个栗子:
h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m
复制以上链接粘贴到浏览器地址栏,会发现无法打开。
这是为什么呢?就是因为这个字符串中出了叛徒——零宽度字符。
这些叛徒我们看不到,但它确实破坏了链接的有效性。
所以各位站长如果想要反爬虫,可以将站内的链接都用 js 函数修饰一下。
等访客点击的时候可以用 js 解释一下。
推荐
发表于 2020-4-4 17:47:17 | 只看该作者
奇才,你以为百度蜘蛛能识别出来url吗?那这样还不如关站呢
推荐
发表于 2020-4-3 19:39:54 来自手机 | 只看该作者
标签元素 加个随机数算了,不用这么
推荐
发表于 2020-4-6 20:19:53 | 只看该作者
小脑袋困掉了 发表于 2020-4-6 13:50
正则可以去,顶多防小白,大佬防不住的。

我在35楼写的正则,咋去不了呀

大佬,请教2个问题:
1、如何用常规软件,或者linux中,制造零字节。劳驾科普下
2、regEx咋删除
推荐
发表于 2020-4-4 22:26:14 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
推荐
 楼主| 发表于 2020-4-3 20:58:47 来自手机 | 只看该作者
DROP 发表于 2020-4-3 19:35
你太小看爬虫大佬了

天下没有攻不破的盾,能防住大部分就已经很不错了。
推荐
发表于 2020-4-3 19:13:42 | 只看该作者
h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m
控制台看到的
2#
发表于 2020-4-3 19:12:23 | 只看该作者
a上工具


不,我不是小尾巴,你也看不见我,哼唧
4#
发表于 2020-4-3 19:13:52 | 只看该作者
h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m
5#
发表于 2020-4-3 19:15:28 | 只看该作者
但是源代码可以查看呀
6#
发表于 2020-4-3 19:16:43 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
7#
发表于 2020-4-3 19:17:06 | 只看该作者
有意思。研究研究。按说源代码可以看到的代码,通配符都能搞定
8#
发表于 2020-4-3 19:17:54 | 只看该作者
h​t​t​p​s​:​/​/​w​w​w​.​h​o​s​t​l​o​c​.​c​o​m
9#
发表于 2020-4-3 19:18:32 | 只看该作者
正则去掉非字母部分看看行不行
10#
 楼主| 发表于 2020-4-3 19:18:40 | 只看该作者
peng123 发表于 2020-4-3 19:15
但是源代码可以查看呀

是可以看到,但是复制到浏览器里打不开。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-9-25 18:01 , Processed in 0.063631 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表