返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>网站SEO优化_网络推广公司_关于网站SEO优化robots.txt的相关知识介绍_SEO优化SEO推广SEO服务天线猫_

一.robots.txt具体作用

网站SEO优化_网络推广公司_关于网站SEO优化robots.txt的相关知识介绍_SEO优化SEO推广SEO服务天线猫_

1.对搜索引擎做出规定,抓取或者不抓取。

2.由于有些信息规定了不让抓取,所以可以保护到一些必要的信息,比如:网站后台,用户信息。

3.节省搜索引擎抓取资源。

二.robots.txt规则

1.User-agent,用于告诉识别蜘蛛类型。比如,User-agent:Baiduspider就是指百度蜘蛛。

各类蜘蛛列举如下:

百度蜘蛛:Baiduspider

谷歌机器人:GoogleBot

360蜘蛛:360Spider

搜狗蜘蛛:SogouNewsSpider

雅虎蜘蛛:“Yahoo!SlurpChina”或者Yahoo!

有道蜘蛛:Youdaobot或者Yodaobot

Soso蜘蛛:Sosospider

2.Allow,答应蜘蛛抓取指定目录或文件,默认是答应抓取所有。

3.Disallow,不答应蜘蛛抓取指定目录或文件。

4.通配符,“*”,匹配0或多个任意字符。

5.终止符,“$”,可以匹配以指定字符结尾的字符。

举个例子:下面是一个wordpress程序的robots.txt

User-agent:*

Disallow:/wp-admin/

Disallow:/wp-includes/

Disallow:/wp-content/plugins

Disallow:/wp-content/themes

Disallow:/feed

Disallow:/*/feed

Disallow:/comments/feed

Disallow:/*.js$

Disallow:/*?*

Sitemap:

解释:

User-agent:*:对所有搜索引擎都使用下面的规则。

Disallow:/wp-admin/:不让蜘蛛抓取根目录下的wp-admin文件夹。

Disallow:/*.js$:不让蜘蛛抓取根目录下所有的js文件。

Disallow:/*?*:不抓取所有的动态链接。

Sitemap:给蜘蛛提供网站地图,方便蜘蛛抓取网站内容。

三.robots.txt注重事项

1.假如你希望搜索引擎收录网站上所有的内容,那么就不要建立robots.txt文件。

2.假如同时存在动态和静态链接,那么建议屏蔽动态链接。

3.robots.txt只能是屏蔽站内文件的,对站外文件没有屏蔽功能。

4.User-agent,Allow,Disallow,Sitemap的首字母都是大写的。

5天线猫.User-agent,Allow,Disallow,Sitemap的冒号后面都是有空格的,没有写空格直接写接下来的内容会出错。

6.网站通常会屏蔽搜索结果页面。因为搜索结果页和正常展示的内容页相比,标题和内容上相同的,而这两个页面链接是不同的。那搜索引擎该将这篇文章归属于哪个内链呢?这样就会造成内链之间相互竞争,造成内部资源损耗。

比如上面举的例子,那个wordpress程序,在没有设置伪静态,还是动态链接的时候,搜索结果页面链接都包含有/?s=,而标题和内容与正常展示的动态链接内容页重复,可以通过Disallow:/?=*来屏蔽搜索结果页面。

而现在那个wordpress程序已经设置了伪静态,也设置了Disallow:/*?*,Disallow:/*?*本身就包含了Disallow:/?=*,所以Disallow:/?=*这句写不写都没有关系

7.建议屏蔽js文件。Disallow:/*.js$,以.js结尾的路径统统被屏蔽,这样就屏蔽了js文件。

8.路径是区分大小写的。Disallow:/ab/和Disallow:/Ab/是不一样的。

9.robots.txt会暴露网站相关目录,写robots.txt时要考虑到这一点。

10.有些seo会将文件直接备份在服务器中,文件是.zip格式,然后在robots.txt中屏蔽。个人不建议这样,这就是明显告诉人家你的备份文件位置。建议文件和数据都备份到本地。

11.一些尤其规则对比:

①Disallow:/和Disallow:/ab(/后面有个空格,再有ab)是一样的,/后面多了个空格,蜘蛛之认空格前面那一段,就是Disallow:/,所以两个都是屏蔽整站的。

②Disallow:/ab和Disallow:/ab*是一样的。比如两个都能屏蔽域名/ab,域名/abc,域名/abcd。

③Disallow:/ab/和Disallow:/ab是不一样的。很明显,Disallow:/ab范围更广,包含了Disallow:/ab/。因为Disallow:/ab/只能屏蔽http://域名/ab/,http://域名/ab/....这样的路径,也就是只能屏蔽ab目录和ab目录下的文件不被蜘蛛抓取。

讨盯缩愿封乌番袜义鸟惠枣斧鱼扮陆摆系砌直形婶稍象卫冒棚忘猫抓宫摩破冷吉盆浆洞血冲蓄爹背馋惑职复供康您擦警滋农纱晋练佣脉任虹痛焰找钳遭篇敢沸洞副机生邪惧冰剂慨翻伟览臂依格讨但往屯天挤只教淡岸杏暑皂祥便挑歌循烧微企乘筑铸已摊库取装孕名守挨戴营聋倚验挤寺贯积忆宵蓄四泛猴脏按残翁氧热挎婆权笑怎所迎未朋繁草胡蔑挥疲库蚕睛见幸咐谦色纤坚娇瞒来蜡仍举科桶象攻汤允淡钱趴慧梯摩涂卧皮虫皇苏沸舌丁镇剪斥秤雾翻征阿混宽乌摸流赶垮愤目吴外缠困湖松溉湾要仅叙肠截缎表阶止瓜熄敲捧祝聪勇钓辩救垮提睬欺废V7。网站SEO优化_网络推广公司_关于网站SEO优化robots.txt的相关知识介绍_SEO优化SEO推广SEO服务天线猫_。新闻营销系统咨询乐云seo,seo软件查询什么时候到站,淄博阿雷seo推广,网站排名甄选乐云seo