Feeds

514 items (513 unread) in 13 feeds

Firefox CFBU成员 Firefox CFBU成员

Ryandol - I' lI haI (1 unread)

  • Permalink for 'Baiduspider不支持noindex'

    Baiduspider不支持noindex

    Posted: October 11, 2008, 9:40pm PDT by Ryan Lee
    LBL_TAG_TAGS百度  

    以前一直不太关心我这个博客在百度的搜录情况,今天去查看了一下,发现百度的搜录量比Google多出不少,研究是怎么来的。结果发现原来Baiduspider只支持部分meta robots协议,比如<meta name=”robots” content=”noindex” />,百度就不支持。居然到现在才发现,实在是失误。刚到百度搜索帮助中心去看了一下,居然还赫赫的写着:

    baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

    从上面这段话来看,百度所谓的遵守互联网meta robots协议,似乎仅支持noarchive标签。

    在百度上site:ilihai.com 2006或者2007、2008,可以发现一打结果,都是博客的按月存档,这部分页面我都定义了meta robots:

    • <meta name=”robots” content=”noindex,follow” />

    noindex的意思是让搜索引擎不要对当前页面创建索引。我一直在使用meta robots + robots.txt的方式来控制搜索引擎对我这个博客的索引,如果没有记错的话,我早在2007年5月份就开始在按月存档页面上使用noindex了,所以Google和Yahoo那边一直没有这些按月存档,我也就没有关心这个问题,直到今天才发现……按月份存档在wordpress博客上是一定要屏蔽掉的,否则容易被搜索引擎认为是复制网页,会带来啥后果就不好说了。所以我只好给Baiduspider开小灶了,在robots.txt中加入:

    • User-agent: Baiduspider
      Disallow: /200*

    Baiduspider,你就不能国际化一点?