全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 1233|回复: 10
打印 上一主题 下一主题

有没有熟悉百度站长提交sitemap的,怎么填都是抓取失败。

[复制链接]
跳转到指定楼层
1#
发表于 2023-8-24 18:52:36 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
上次看到@机长 大佬说提交sitemap有好处,我就去提交,结果怎么提交都提示抓取失败?




昨天填的是 www.xxx.com/data/sitemap.xml  , 抓取失败后以为我的xml有问题,

今天提交的是www.xxx.com/data/sitemap.txt , 结果还是抓取失败。日了。

url路径都是正确的,都能打开。

xml的内容是这样的:

  1. <?xml version="1.0" encoding="utf-8"?>
  2. <urlset
  3. xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
  4. xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  5. xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
  6. http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
  7. <url>
  8. <loc>https://www.xxx.com/</loc>
  9. <lastmod>2023-08-23</lastmod>
  10. <changefreq>always</changefreq>
  11. <priority>1</priority>
  12. </url>
  13. <url>
  14. <loc>https://www.xxx.com/art/</loc>
  15. <lastmod>2023-08-23</lastmod>
  16. <changefreq>hourly</changefreq>
  17. <priority>0.9</priority>
  18. </url>
  19. <url>
  20. <loc>https://www.xxx.com/box/</loc>
  21. <lastmod>2023-08-23</lastmod>
  22. <changefreq>hourly</changefreq>
  23. <priority>0.9</priority>
  24. </url>
复制代码


txt的内容是这样的:

  1. https://www.xxx.com/
  2. https://www.xxx.com/art/
  3. https://www.xxx.com/box/
  4. https://www.xxx.com/list3/
  5. https://www.xxx.com/list4/
  6. https://www.xxx.com/list5/
  7. https://www.xxx.com/list6/
  8. https://www.xxx.com/list7/
  9. https://www.xxx.com/list8/
  10. https://www.xxx.com/list9/
  11. ...
复制代码



不知道为什么百度站长平台为什么一直提示抓取失败?
来自 11#
 楼主| 发表于 2023-8-25 16:48:53 | 只看该作者


测试抓取发现提示是robots.txt封禁,我看了下robots.txt,果然是程序默认的robots.txt禁止抓取/data/目录,但是我修改了robots.txt,已经不再禁止抓取这个目录了,再测试仍然是抓取失败。

修改后的robots.txt如下:

10#
发表于 2023-8-25 15:40:56 | 只看该作者
old_driver 发表于 2023-8-25 15:23
百度的问题,不用管它,抓了也没用

懂行。。。可是 没试过的人不死心。。
9#
发表于 2023-8-25 15:23:43 | 只看该作者
百度的问题,不用管它,抓了也没用
8#
 楼主| 发表于 2023-8-25 14:44:18 | 只看该作者
ouou8 发表于 2023-8-25 14:18
可能被你防火墙拦截了。
不过也很打可能是百度自己的问题,后台经常出现这个问题,见怪不怪了。
你去检测一 ...



我测了下,页面都能抓取成功,就遇到sitemap.xml 和 txt 就不行了。我刚刚也设置了CLOUDFLARE的防火墙规则允许百度蜘蛛了啊。
7#
发表于 2023-8-25 14:18:02 | 只看该作者
可能被你防火墙拦截了。
不过也很打可能是百度自己的问题,后台经常出现这个问题,见怪不怪了。
你去检测一下抓取看能否成功,不成功就提交错误要求更新。也要检测robots抓取是否成功。
6#
 楼主| 发表于 2023-8-25 13:45:35 | 只看该作者
勿埋我心 发表于 2023-8-24 20:04
你是不是套cf了,如果是的话,就去防火墙那里加一个规则,用于放行百度蜘蛛。百度蜘蛛的请求头在那个报错页 ...

谢谢大佬,我这就去试试。
5#
发表于 2023-8-24 20:56:40 | 只看该作者
是不是跟北岸有关系?
4#
发表于 2023-8-24 20:04:15 | 只看该作者
你是不是套cf了,如果是的话,就去防火墙那里加一个规则,用于放行百度蜘蛛。百度蜘蛛的请求头在那个报错页面有。
3#
发表于 2023-8-24 19:20:12 | 只看该作者
用api 一条条的提交
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-9-21 20:32 , Processed in 0.062948 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表