Robots.txt文件的作用 - 郑州凯飞网络
发表评论 | 点击咨询SEOQQ咨询 0 条评论 发布:程俊克 发表时间:2013-04-25 标签:
 

这个文件位于域名根目录(例如西http://www818seo.com/robots.txt),在控制蜘蛛可以访问网站什么内容时有很多用途。你可以使用robots.txt文件来:

·防止网站非公开部分被爬行。

·禁止搜索引擎访问脚本、应用和其他类型的代码。

·避免收录网站复制内容,例如HTML页面的打印版本或产品目录的不同排序。

·自动发现XML网站地图

robots.txt文件必须位于根目录,文件名必须全部小写(是robots.txt,而不是Robots.txt或其他包含大写字母的形式)。任何其他名字或位置对搜索引擎都无效。文件也必须完全是文本格式(不是HTML格式)。

当你告诉搜索引擎蜘蛛不要访问一个页面时,这将防止蜘蛛访问这个页面。图6-31示意了搜索引擎蜘蛛看到robots.txt文件中禁止爬行一个页面指示时会发生什么。

基本上,页面不会被爬行,所以页面上的链接不能传递链接权重到其他页面,因为搜索引擎根本看不到这些链接。然而网上有其他页面链接到这个页面时,这个页面可以进入搜索引擎索引。当然,既然不能读取,搜索引擎就没有这个页面的太多信息,将主要依靠锚文字和链接向它的页面上的信号确定这个页面可能是关于什么的。这种页面出现在Google搜索结果中时显得相当少见,如图6-32所示。

图6-32显示了在Google查询“site:news.yahoo.com/topics/inurl:page”的结果。这不是一个用户通常会输入的查询,但你可以看到结果的样子。只有URL被列出来,没有说明。

这是因为蜘蛛不被允许读取页面以获得数据。在现在的算法中,这种页面排名不高,因为相对任何普通查询的相关性分数通常都很低。

Google、雅虎、必应、Ask和几乎所有网上合法蜘蛛都遵循robots.txt文件中设置的指令。robots.txt文件中的指令主要用来防止蜘蛛访问网站页面和子目录,虽然也有其他选项。注意,子域名需要它自己的robots.txt文件,https:服务器上的文件也是。

阅读本文的人还阅读

1.搜索引擎robots协议用法详解

文章作者:程俊克
本文地址:http://www.818seo.com/2347.html
郑州SEO版权所有 © 转载时请以链接形式注明作者和原始出处,尊重版权,谢谢!

发表评论

*

* 绝不会泄露