发表评论 | 点击咨询SEOQQ咨询 0 条评论 发布:程俊克 发表时间:2012-07-23 标签:
 

1、robots基本概念

robots是网站和搜索引擎之间的一个协议,会根据robots.txt这个文本文件这个来抓取内容,是搜索引擎中访问我们网站的时候要查看的第一个文件,存放在网站的根目录,如郑州SEO的robots文件的地址就是www.818seo.com/robots.txt。它不是命令而是协议,搜索引擎偶尔也会抽风不会遵守,一般情况下生效需要1周左右的时间。

2、robotsr的用途

A、网站的隐私的页面不会检索收录;

B、屏蔽死链接;

C、屏蔽重复页面及无内容页面。

如:Disallow:/bc/index.html

3、了解robots的常用符号

User-agent:定义搜索引擎的类型。如:User-agent:Baiduspider是定义百度,User-agent:Googlebot是用来定义谷歌机器人的;

Disallow:指禁止搜索引擎抓取的路径,Allow:允许搜索引擎收录的地址;

*:匹配0或多个任意字符,$:匹配行结束符;

User-agent:*允许所有搜索引擎

谷歌机器人:Googlebot微软Bing的蜘蛛:Msnbotsoso的蜘蛛:Sosospider雅虎的蜘蛛:Mozilla

如淘宝的:

User-agent:Baiduspider
Disallow:/
User-agent:baiduspider
Disallow:/

/代表网站所有目录

Allow的出现往往都是和Disallow一起使用的

如:User-agent:*
Allow:/bc/index.html
Disallow:/bc/

上面的意义就是:禁下抓取网站的bc目录,但允许抓取BC下的index.html。

*:匹配零或者多个任意字符。

看死链接他们又有相同的规律,*号来进行统一屏蔽,如:

www.***.com/basodm?36A=1
www.***.com/basodm?37A=4

这样的死链接怎么屏蔽?www.***.com/basodm?这部分都没变,我们就是用如下指令:

Useo-agnet:*
Disallow:/basodm?*A=*

$:是结束符

禁止Baiduspider抓取网站上所有jpg图片

User-agent:Baiduspider
Disallow: /*.jpg$(:后加空格)

//双斜杠代表网站的目录

Useo-agnet:*
Disallow:/basodm/

单一的斜杠和双斜杠的区别:

Disallow:/郑州seo/禁止搜索引擎抓取该网站的郑州SEO这个目录

Disallow:/郑州seo表示不但禁止搜索引擎抓取该网站的SEO目录,还能够禁止所有以SEO开头的目录名和文件名。

阅读本文的人还阅读

1.Robots.txt文件的作用

2.robots.txt文件语法及写法

文章作者:程俊克
本文地址:http://www.818seo.com/639.html
郑州SEO版权所有 © 转载时请以链接形式注明作者和原始出处,尊重版权,谢谢!

发表评论

*

* 绝不会泄露