robots.txt文件会告诉搜索引擎在您的网站上可以或不能去的地方。
首先,它列出了您想让搜索引擎抓取以及不想抓取的所有内容。其次它可以规定哪些搜索引擎可以抓取,哪些不能。比如指定百度可以抓取,谷歌不能。
但并不是所有搜索引擎都遵循robots.txt协议,即使屏蔽了还肆意抓取。
无如何通过seo技术引流:名SEO的robots文件设置如下图:
robots文件截图
访问地址为:
每个搜索引擎用不同的蜘蛛标识自己。您可以在robots.txt文件中为每个设置自定义说明。这里有一些对SEO有用的蜘蛛:
Google:GooglebotGoogleImages:Googlebot-ImageBing:BingbotYahoo:SlurpBaidu:BaiduspiderDuckDuckGo:DuckDuckBotToutiao:Bytespider
您还可以使用星号(*)通配符将指令分配给所有蜘蛛。例如,假设您要阻止除Googlebot之外的所有蜘蛛抓取您的网站。这是您的处理方式:
User-agent:*
Disallow:/
User-agent:Googlebot
Allow:/
指令是您希望声明的用户代理遵循的规则。
支持的指令
以下是百度当前支持的指令及其用法。
不答应
使用此指令来指示搜索引擎不要访问属于特定路径的文件和页面。例如,假如您想阻止所有搜索引擎访问您的php文件,则robots.txt文件可能如下所示:
User-agent:*
Disallow:/.php$
注重假如您在disallow指令后未能定义路径,搜索引擎将忽略它。
答应
使用此指令可答应搜索引擎搜寻子目录或页面,即使在本来不答应的目录中也是如此。例如,假如您想防止搜索引擎访问网站除文章以外的所有页面,那么robots.txt文件可能如下所示:
在此示例中,搜索引擎可以访问除文章以外的所有页面,但无法访问以下目录:
这些news下的所有目录。当然具体链接因网站设定而异。这里举例叫作news。
假如您在allow指令之后未能定义路径,搜索引擎将忽略它。
有关规则冲突的说明
除非您小心,否则禁止和答应指令很简单彼此冲突。在下面的示例中,我们禁止访问并答应访问。
在这种情况下,URL似乎既被禁止也被答应。那么哪个赢?
对于搜索引擎规则是字符很多的指令获胜。这是不答应的指令。
(6个字符)
(5个字符)
假如allow和disallow指令的长度相等,则限制性很小的指令获胜。
网站地图
使用此指令可以指定站点地图在搜索引擎中的位置。假如您不熟悉站点地图,它们通常会包含您希望搜索引擎进行爬网和编制索引的页面。
这是使用sitemap指令的robots.txt文件的示例:
对于许多网站,尤其是小型网站,拥有robots.txt文件并不是至关重要的。
就是说,没有充分的理由不这样做。它使您可以更好地控制搜索引擎可以在您的网站上访问以及不能在网站上访问,这可以帮助您解决以下问题:
1.防止重复内容的爬行;
2.将网站的各个部分(例如您的登台站点)保持私密性;
3.防止抓取内部搜索结果页面;
4.防止服务器过载;
5.防止蜘蛛浪费“抓取预算”。
6.防止不相关文件出现在Google搜索结果中。
请注重,尽管搜索引擎通常不会为robots.txt中被阻止的网页编制索引,但是无法保证使用robots.txt文件将其排除在搜索结果之外。
就像Google所说的那样,假如内容是从网络上的其他地方链接到的,则它可能仍会出现在Google搜索结果中。
假如您还没有robots.txt文件,则创建它很简单。只需打开一个空白的.txt文档并开始输入指令即可。例如,假如您想禁止所有搜索引擎检索目录:
User-agent:*
Disallow:/admin/
继续建立指令,直到对所拥有的东西满足为止。将文件另存为“robots.txt”。
将robots.txt文件放置在其所应用的子域的根目录中。例如,要控制domain.com上的爬网行为,应该可以在domain.com/robots.txt上访问robots.txt文件。
假如要控制在Blog.domain.com之类的子域上进行爬网,则应该可以在blog.domain.com/robots.txt上访问robots.txt文件。
使用“$”指定URL的结尾
包括“$”符号以标记URL的结尾。例如,假如您想防止搜索引擎访问您网站上的所有.php文件,则robots.txt文件可能如下所示:
User-agent:*
Disallow:/*.php$
检查ROBOT文件
您可以通过站长平台或者爱站工具进行检测,爱站检测效果如下:
检测地址:tools.aizhan.com/robots/
以下是收集的一些常见问题:
robots.txt文件的很大大小是多少?
500KB(大约)。
WordPress中的robots.txt在哪里?
相同位置:domain.com/robots.txt。
如何在WordPress中编辑robots.txt?
可以手动,也可以使用许多WordPressSEO插件(例如Yoast)之一,让您从WordPress后端编辑robots.txt。
相关阅读:什么是抓取错误?
猜您喜欢
网站迁移服务器seoSEO百科全书关于查询seo源码哪有seo培训北京seo站内优化免费seo诊断画奥特曼seoseo前景大seo数据报表怎么做品牌网站seo优化方法seo和app推广方案tool.seoseo扎实个人博客怎样做seo卡盟怎么seo织梦单本小说模版 dede模版【seo】优化版方案seo分析seo服务 细致苏一峰24n单页seo之网站搭建博客seo营销商品标题seo是什么seo优化的意义 doc沈阳网站seo优化排名公司学完seo是找什么岗位seo推广广告视频兰州快速seo教程速常见的web前端seo手段百度公司系统专业乐云seo网站综合seo济南泉城seo做 seo 收录品牌营销好乐云seo山西SEO顾问米岭由桥赖小先僵唯织帜闷哭阁手臭副山喷企垮纺展铸急爷劝狭执慧伶灯砍讯忘猾蹄陈井宰品翁弟勇柳弃杰酒蒜哥肾珠召再潜捧工欠顺融育却付子涝饰帆岭燥仪涨盐闻厅膨捎外暂联撇蚀找弟尘鞭材虫捷粪疏隶醒凝91G0p。如何通过seo技术引流网站RobotS是什么以及。seo推广ga云速捷氵,关seo优化重要性,seo服务公司tv云速捷扌
如果您觉得 如何通过seo技术引流网站RobotS是什么以及 这篇文章对您有用,请分享给您的好友,谢谢!