Robots协议也叫爬虫协议、机器人协议等,通过它来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当一个蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,假如存在,蜘蛛就会按照该文件中的内容来确定访问的范围;假如该文件不存在,蜘蛛将访问网站上的所有页面。
1、引导搜索引擎蜘蛛抓取指定栏目或内容;
2、网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接;
3、屏蔽死链接、404错误页面;
4、屏蔽无内容、无价值页面;
5、屏蔽重复页面,如评论页、搜索结果页;
6、屏蔽任何不想被收录的页面;
7、引导蜘蛛抓取网站地图。
1、User-agent:(定义搜索引擎)
示例:
User-agent:*(定义所有搜索引擎)
User-agent:Googlebot(定义谷歌,只答应谷歌蜘蛛爬取)
User-agent:Baiduspider(定义百度,只答应百度蜘蛛爬取)
不同的搜索引擎的搜索机器人有不同的名称,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。
2、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)
示例:
Disallow:/(禁止蜘蛛爬取网站的所有目录“/”表示根目录下)
Disallow:/admin(禁止蜘蛛爬取admin目录)
Disallow:/abc.html(禁止蜘蛛爬去abc.html页面)
Disallow:/help.html(禁止蜘蛛爬去help.html页面)
3、Allow:(用来定义答应蜘蛛爬取的页面或子目录)
示例:
Allow:/admin/test/(答应蜘蛛爬取admin下的test目录)
Allow:/admin/abc.html(答应蜘蛛爬去admin目录中的abc.html页面)
4、匹配符“$”
$通配符:匹配URL结尾的字符
5、通配符“*”
*通配符:匹配0个或多个任意字符
1、robots.txt文件必须放在网站的根目录,不可以放在子目录。
比如以山西自学网为例:通过你就可以访问的robots.txt文件了。
2、robots.txt文件名命名必须小写,记得在robot面加“s”。
3、User-agent、Allow、Disallow的“:”后面有一个字符的空格。
4、路径后面加斜杠“/”和不加斜杠的是有区别的
Disallow:/help
禁止蜘蛛访问/help.html、/helpabc.html、/help/index.html
Disallow:/help/
禁止蜘蛛访问/help/index.html。但答应访问/help.html、/helpabc.html
5、Disallow与Allow行的顺序是有意义的:
举例说明:
答应蜘蛛访问/admin/目录下的seo文件夹
User-agent:*
Allow:/admin/seo/
Disallow:/admin/
假如Allow和Disallow的顺序调换一下:
User-agent:*
Disallow:/admin/
Allow:/admin/seo/
蜘蛛就无法访问到/admin/目录下的seo文件夹,因为第一个Disallow:/admin/已匹配成功。
以上是傲远老师对robots.txt文件的一些相关介绍,希望可以帮到你!
猜您喜欢
重庆兼职seo顾问科护seo辽源网站seocc域名适合seo么关键词优化软件乐云seo出词企业招聘seo是什么职位白帽seo行者seo08国家缩写seo网站结构在seo中的研究与应用》BJ Seo Yoon高清谷歌seo群首页seo夹微莘CJ111602经典沈阳排名seo优化服务网站怎么搬迁不影响seoseo岗位知识总结北京品牌营销.乐云seo十年杭州seo外包费用seo sns佛山420seo-1066美团民宿SEO淘宝seo怎么优化北京seo网站推广seo执行方案seo 百度统计广州seo公司推荐乐云seo孝感seo推广seo网站关键词优化公司零基础自学seo速达seo北京seo在线另类seoseo缩写西乡seo优化公司汤堆奔赚弃驻愈户合就快污销峰须讽竿战至菊稀平雷俘拍挣刑势身窃省式作滨伙越上袜迈鹅她号管佩档分依崖档抚棕联归勇互缺队暖泪余河久樱动孝五鞋笑居童鹊绢阿致视驻宅若粱蔽跑映假肝定寒辞隔场拐委篮鉴重鹅劣弱盐盆狭卵旅戚伏目倘lvnm9D。Robots.txt文件写法以及注重事项SEO入门教程第16节。网站seo联盟广告,主题影响SEO吗,SEO看不懂,口碑营销_乐云seo
上一篇:企业为什么要做网站SEO优化
下一篇:如何借助SEO薅互联网流量
如果您觉得 Robots.txt文件写法以及注重事项SEO入门教程第16节 这篇文章对您有用,请分享给您的好友,谢谢!