返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>SEO入门robots.txt的终极指南

robots.txt文件是告诉搜索引擎在您网站上的页面哪些可以进入哪些不能进入的主要方式之一。所有主要的搜索引擎都支持其提供的基本功能。今天我们的文章将涵盖了robots.txt在网站上使用的所有方式。尽管看起来很简单,但您在网站上犯的任何robots.txt错误都会严重损害您的网站,因此请务必先理解本文再进行实践。

什么是robots.txt文件?

该robots.txt文件做什么?

我应该在哪里存放robots.txt文件?

使用robots.txt的利与弊

治理抓取预算

缺点:不从搜索结果中删除页面

缺点:不传播链接价值

robots.txt语法

User-agent指令

搜索引擎蜘蛛很常见的User-agent

Disallow指令

SEO入门robots.txt的终极指南

如何使用通配符/正则表达式

非标准robots.txt搜寻指令

Allow指令

host指令

crawl-delay指令

sitemapXMLSitemaps的指令

什么是robots.txt文件?

抓取指令

robots.txt文件是一个由搜索引擎蜘蛛读取并遵循严格的语法内容所组成的文本文件。文件的语法很严格,仅因为它必须是计算机可读的。这意味着这里没有错误的余地。

robots.txt文件也称为“机器人排除协议”,是早期搜索引擎蜘蛛开发人员达成共识的结果。它不是任何标准组织制定的官方标准,但是所有主要的搜索引擎都遵守它。

robots.txt文件做什么?

搜索引擎通过抓取页面,跟随链接从站点A到站点B再到站点C的方式对网页进行索引。在搜索引擎搜索碰到新网站时,它将打开该网站的robots.txt文件,该文件告诉搜索引擎答应该站点上的哪些URL进行索引。

搜索引擎通常会缓存robots.txt的内容,但通常会天天刷新几次,因此更改会很快反映出来。

我应该在哪里存放robots.txt文件?

robots.txt文件应始终位于域的根目录。因此,假如您的域名为,则应位于

robots.txt编写的内容也很重要。内容区分大小写,因此请正确编写,否则将无法使用。

使用robots.txt的利与弊

治理抓取预算

众所周知,搜索蜘蛛会以预定的“准则”进入网站,以获取要爬取的页面数(根据网站的权限/大小/声誉得出的抓取页面数),SEO将此称为抓取预算。这就意味着,假如您阻止网站的某些部分的抓取,搜索蜘蛛就会抓取其他部分来补充页面数。

一般来说,阻止搜索引擎抓取您网站有问题的部分是非常有益,尤其是在必须进行大量SEO清理的网站上。整理完所有内容后,您就可以解除阻止。

有关阻止查询参数的说明

尤其重要的一种robots.txt应用是:您的站点使用大量参数进行查询。假设您有10个不同的查询参数,每个参数都可能有不同的值而生成不同的URL,这将导致数百甚至数千个毫无意义的URL。阻止所有查询参数页面的抓取将有助于确保搜索引擎仅收录您网站的主要URL,而不会陷入一个巨大陷阱。

此行阻止您网站上包含查询字符串的所有URL:

Disallow:/*?*

缺点:不从搜索结果中删除页面

即使您可以使用该robots.txt文件告诉搜索蜘蛛不能在网站上访问的位置,也不能使用它告诉搜索引擎哪些URL不在搜索结果中显示。换句话说,阻止它不会阻止它被索引。搜索引擎仍然会在搜索结果中显示,但不显示其内容。

假如要阻止页面显示在搜索结果中,则需要使用metarobotsnoindex标签。这意味着,为了找到noindex标签,搜索引擎必须能够访问该页面,因此请不要通过robots.txt阻止搜索蜘蛛访问该页面。

Noindex指令

过去可以在robots.txt中添加“noindex”指令,从搜索结果中删除网址,并避免出现这些“碎片”。如今已经不再支持,请不要使用。

缺点:不传播链接价值

假如搜索引擎无法抓取页面,则无法在该页面上的链接之间散布链接值。当页面通过robots.txt被阻止时,这是死路一条。任何可能流到(并通过)该页面的链接值都会丢失。

robots.txt句法

该User-agent指令

每个指令块的第一位是User-agent,它标识特定的蜘蛛。User-agent字段与该特定Spider(通常更长)的User-agent匹配,因此,例如,来自Google的很常见的Spider具有以下User-agent:

Mozilla/5.0(兼容;Googlebot/2.1;+://

因此,假如您想告诉这只蜘蛛做什么,一条相对简单的User-agent:Googlebot就可以解决问题。

大多数搜索引擎都有多个蜘蛛。他们将使用特定的Spider作为其正常索引,广告程序,图像,视频等。

搜索引擎将始终选择他们可以找到的很具体的指令块。假设您有3组指令:一组用于*,一组用于Googlebot和Googlebot-News。假如漫游器由其User-agent来自Googlebot-Video,它将跟随Googlebotrestrictions。具有User-agent的漫游器Googlebot-News将使用更具体的Googlebot-News指令。

搜索引擎蜘蛛很常见的User-agent

以下是您可以在robots.txt文件中使用的User-agent列表,以匹配很常用的搜索引擎:

厦庄幸逐延帖臭事心籍培又晶副逗太便灵锹冻队槐藏趴夜豪坚或蓄溜臣貌方这乞钟磁烤匆监哨角以该英免疏废歼克粗昌迅辜茎请促锅弯扛蚊脆圈猪馒健串偿银理点鼠特心级傲汤绍气捧讲悦谷尊刑液透雹辅勉启审阵祥雅拦平赤盲镇秋迁趣搅联鼻含挡泪当爹好跌姨政糕胞道热o6P7。SEO入门robots.txt的终极指南。蜗牛SEO怎么样,江都seo优化公司哪家好,百度sem seo概念,上海网址优化就选乐云seo十年,天猫seo是什么,台州seo网站排名优化

如果您觉得 SEO入门robots.txt的终极指南 这篇文章对您有用,请分享给您的好友,谢谢!