V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
eleveneat
V2EX  ›  问与答

Hexo 搭建博客提交百度 sitemap 抓取失败

  •  
  •   eleveneat · 2015-04-24 16:28:24 +08:00 · 8581 次点击
    这是一个创建于 3520 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近自己用Hexo搭建了一个简简单单的博客,最初是同步到Github Pages,然而发现在百度站长工具提交sitemap会显示抓取失败,想着可能是某些原因百度不能抓取Github,所以就把博客迁移到GitCafe Pages,可是提交sitemap给百度依然还是抓取失败。
    自己也考虑过也许是用Hexo里面插件生成的sitemap格式不符合百度要求,所以在网上也用工具生成了自己网站的sitemap.xml,提交上去还是抓取失败。
    因为自己在这一方面不太熟悉,不清楚究竟是哪一环节出了问题,所以想请问一下大家?

    图片为百度站长上显示抓取失败的截图:

    8 条回复    2016-02-25 00:52:02 +08:00
    Tiande
        1
    Tiande  
       2015-04-24 16:52:04 +08:00
    hexo 的 sitemap 确是不符合百度标准,以下这个插件生成的可以:
    https://github.com/coneycode/hexo-generator-baidu-sitemap
    但是百度本身不能抓取 github 数据,所以无法提交。

    你可以在 hexo 下生成规范的 百度sitemap ,然后修改成 gitcafe 地址下的,再提交试试。

    最好还是找个 免/收费空间 测试一下,万一 百度 连 gitcafe 也不能抓取呢。
    (国内主机都要备案,我是没干啥党必欲除之的事情,但真麻烦啊,在万网买域名送的两年免费空间,碰都没碰。)

    “怎么说呢,我只能说百度太2了”
    eleveneat
        2
    eleveneat  
    OP
       2015-04-24 18:05:47 +08:00
    其实hexo-generator-baidu-sitemap这个插件我也用过,也不行......
    难道是因为我没有备案的原因?
    eleveneat
        3
    eleveneat  
    OP
       2015-04-24 18:06:23 +08:00
    @dtdnqsb
    其实hexo-generator-baidu-sitemap这个插件我也用过,也不行......
    难道是因为我没有备案的原因?
    Tiande
        4
    Tiande  
       2015-04-24 18:12:48 +08:00
    @eleveneat 只有国内主机需要备案。你用 gitcafe 备什么。
    可能是百度故意不收录的吧,你换个 vps 或 空间 试试。
    BeanMrx
        5
    BeanMrx  
       2016-02-24 22:10:03 +08:00
    因为 Github 屏蔽了百度的爬虫,我的也一样。
    我域名没有备案、没有 VPS 也没空间,整了一个用新浪云免费云主机的方案。
    http://blog.beanmr.com/2016/02/24/solve-github-baidu-spider-blocking/
    BeanMrx
        6
    BeanMrx  
       2016-02-24 22:14:17 +08:00
    从你放出来图看~
    百度应该缓存了你的 DNS 结果 199.27.75.133 是 Github 的服务器,也就是百度还认为你的博客在 Github 上。
    你可以进入抓取诊断随便抓你的一个地址,如果抓取失败的话你注意一下爬虫抓的 IP ,直接放到浏览器访问如果不是你的服务器,你可以点击反馈 IP ,百度会重新 DNS 你的服务器 IP 。
    还有一种可能是你忘了改 DNS 啦~哈哈~
    BeanMrx
        7
    BeanMrx  
       2016-02-24 22:14:43 +08:00   ❤️ 1
    @Tiande 这次真的 Github 把百度干了
    Tiande
        8
    Tiande  
       2016-02-25 00:52:02 +08:00
    @BeanMrx 对,后来发现百度抓取 GitHub 内容的时候是被拒绝的。

    然而这个帖子坟了 306 天 蛤蛤。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5059 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 08:45 · PVG 16:45 · LAX 00:45 · JFK 03:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.