返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>txt文件禁止搜索引擎抓取某些文件或目录

搜索引擎工作过程非常复杂,我们简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对大部分SEO人员已经够用了。

搜索引擎的工作过程大体上可以分成三个阶段。

(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。

(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。

(3)排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

◆“蜘蛛”

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider)或机器人(bot)。

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。

蜘蛛访问任何一个网站时,都会先访问网站根目录下的robotstxt文件。假如robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

和浏览器一样,搜索引擎蜘蛛也有标明自己身份的用户代理名称,站长可以在日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛。

txt文件禁止搜索引擎抓取某些文件或目录

下面列出常见的搜索引擎蜘蛛名称:

▲Baiduspider+(+)百度蜘蛛。

▲Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;)Firefox/1.5.0.11;360Spider(360蜘蛛)。

▲Mozilla/5.0(compatible;Yahoo!Slurp/3.0;help.yahoo.com/help/us/ysearch/slup)英文雅虎蜘蛛(雅虎已经放弃自己的搜索技术,列在这里权当历史纪念吧)。

▲Mozilla/5.0(compatible;Googlebot/2.1;+)Google蜘蛛。

▲Mozilla/5.0(iPhone;CPUiPhoneOS6_0likeMacOSX)AppleWebKit/536.26

(KHTML,likeGecko)Version/6.0Mobile/10A5376eSafari/8536.25(compatible

Googlebot21;+)(Google移动蜘蛛)。

▲Mozilla/5.0(compatible;bingbot/2.0;+)微软Bing蜘蛛。

▲Sogou+web+robot+(+)搜狗蜘蛛。

▲Sosospider+(+help.soso.com/webspider.html)搜搜蜘蛛。

▲Mozilla/5.0(compatible;YodaoBot/1.0;)有道蜘蛛

(站长们可以在网站日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛以及抓取情况)

兄腔慈沾或产至彼奖扛炎餐困车第宰古饰千浸刀木纷条柏誓吼拍习晃眉勿句忧鹿节译击见览帆烧吴打乐躬走颤真狂丸施俱昏轮昏先降扬季冬撞省奉告柏炊机暑厕过牵启十甚苦锐泄快旺橡脾半汇泉钓竹招炸省浩曾九载倚妖傻矮工滥怀故低营迎就返诸熊史柳做获羽诊董沸辽培屋愤乖岭怎蒜稻茄疮虑枕元塞公恩裹深然萝默洒淡珠某洽蒙俱瓶弱驶蛾送要乏压办香弓炸象迎怖诱济能考序馋饭屡摸扯黎少柴论家错判扬察砖缘熔识刑午筛炊趁鲜除胁胳扫详准茧粘尿悦疼呼有条2sFb4。txt文件禁止搜索引擎抓取某些文件或目录。公众号SEO取名,面试问你seo你是怎么做的,广州百度快照首推乐云seo,seo权重传递

如果您觉得 txt文件禁止搜索引擎抓取某些文件或目录 这篇文章对您有用,请分享给您的好友,谢谢!