全球主机交流论坛

标题: 有没有熟悉百度站长提交sitemap的,怎么填都是抓取失败。 [打印本页]

作者: SuperMaster    时间: 2023-8-24 18:52
标题: 有没有熟悉百度站长提交sitemap的,怎么填都是抓取失败。
上次看到@机长 大佬说提交sitemap有好处,我就去提交,结果怎么提交都提示抓取失败?




昨天填的是 www.xxx.com/data/sitemap.xml  , 抓取失败后以为我的xml有问题,

今天提交的是www.xxx.com/data/sitemap.txt , 结果还是抓取失败。日了。

url路径都是正确的,都能打开。

xml的内容是这样的:

  1. <?xml version="1.0" encoding="utf-8"?>
  2. <urlset
  3. xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
  4. xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  5. xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
  6. http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
  7. <url>
  8. <loc>https://www.xxx.com/</loc>
  9. <lastmod>2023-08-23</lastmod>
  10. <changefreq>always</changefreq>
  11. <priority>1</priority>
  12. </url>
  13. <url>
  14. <loc>https://www.xxx.com/art/</loc>
  15. <lastmod>2023-08-23</lastmod>
  16. <changefreq>hourly</changefreq>
  17. <priority>0.9</priority>
  18. </url>
  19. <url>
  20. <loc>https://www.xxx.com/box/</loc>
  21. <lastmod>2023-08-23</lastmod>
  22. <changefreq>hourly</changefreq>
  23. <priority>0.9</priority>
  24. </url>
复制代码


txt的内容是这样的:

  1. https://www.xxx.com/
  2. https://www.xxx.com/art/
  3. https://www.xxx.com/box/
  4. https://www.xxx.com/list3/
  5. https://www.xxx.com/list4/
  6. https://www.xxx.com/list5/
  7. https://www.xxx.com/list6/
  8. https://www.xxx.com/list7/
  9. https://www.xxx.com/list8/
  10. https://www.xxx.com/list9/
  11. ...
复制代码



不知道为什么百度站长平台为什么一直提示抓取失败?
作者: kaixin1717    时间: 2023-8-24 19:00
xml的试试
作者: 机长    时间: 2023-8-24 19:20
用api 一条条的提交
作者: 勿埋我心    时间: 2023-8-24 20:04
你是不是套cf了,如果是的话,就去防火墙那里加一个规则,用于放行百度蜘蛛。百度蜘蛛的请求头在那个报错页面有。
作者: 英语实在不好    时间: 2023-8-24 20:56
是不是跟北岸有关系?
作者: SuperMaster    时间: 2023-8-25 13:45
勿埋我心 发表于 2023-8-24 20:04
你是不是套cf了,如果是的话,就去防火墙那里加一个规则,用于放行百度蜘蛛。百度蜘蛛的请求头在那个报错页 ...

谢谢大佬,我这就去试试。
作者: ouou8    时间: 2023-8-25 14:18
可能被你防火墙拦截了。
不过也很打可能是百度自己的问题,后台经常出现这个问题,见怪不怪了。
你去检测一下抓取看能否成功,不成功就提交错误要求更新。也要检测robots抓取是否成功。
作者: SuperMaster    时间: 2023-8-25 14:44
ouou8 发表于 2023-8-25 14:18
可能被你防火墙拦截了。
不过也很打可能是百度自己的问题,后台经常出现这个问题,见怪不怪了。
你去检测一 ...



我测了下,页面都能抓取成功,就遇到sitemap.xml 和 txt 就不行了。我刚刚也设置了CLOUDFLARE的防火墙规则允许百度蜘蛛了啊。
作者: old_driver    时间: 2023-8-25 15:23
百度的问题,不用管它,抓了也没用
作者: rrw    时间: 2023-8-25 15:40
old_driver 发表于 2023-8-25 15:23
百度的问题,不用管它,抓了也没用

懂行。。。可是 没试过的人不死心。。
作者: SuperMaster    时间: 2023-8-25 16:48


测试抓取发现提示是robots.txt封禁,我看了下robots.txt,果然是程序默认的robots.txt禁止抓取/data/目录,但是我修改了robots.txt,已经不再禁止抓取这个目录了,再测试仍然是抓取失败。

修改后的robots.txt如下:






欢迎光临 全球主机交流论坛 (https://443502.xyz/) Powered by Discuz! X3.4