搜索引擎工作过程非常复杂,我们简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对大部分SEO人员已经够用了。
搜索引擎的工作过程大体上可以分成三个阶段。
(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。
(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。
(3)排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。
◆“蜘蛛”
搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider)或机器人(bot)。
搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。
蜘蛛访问任何一个网站时,都会先访问网站根目录下的robotstxt文件。假如robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。
和浏览器一样,搜索引擎蜘蛛也有标明自己身份的用户代理名称,站长可以在日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛。
下面列出常见的搜索引擎蜘蛛名称:
▲Baiduspider+(+)百度蜘蛛。
▲Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;)Firefox/1.5.0.11;360Spider(360蜘蛛)。
▲Mozilla/5.0(compatible;Yahoo!Slurp/3.0;help.yahoo.com/help/us/ysearch/slup)英文雅虎蜘蛛(雅虎已经放弃自己的搜索技术,列在这里权当历史纪念吧)。
▲Mozilla/5.0(compatible;Googlebot/2.1;+)Google蜘蛛。
▲Mozilla/5.0(iPhone;CPUiPhoneOS6_0likeMacOSX)AppleWebKit/536.26
(KHTML,likeGecko)Version/6.0Mobile/10A5376eSafari/8536.25(compatible
Googlebot21;+)(Google移动蜘蛛)。
▲Mozilla/5.0(compatible;bingbot/2.0;+)微软Bing蜘蛛。
▲Sogou+web+robot+(+)搜狗蜘蛛。
▲Sosospider+(+help.soso.com/webspider.html)搜搜蜘蛛。
▲Mozilla/5.0(compatible;YodaoBot/1.0;)有道蜘蛛
(站长们可以在网站日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛以及抓取情况)
猜您喜欢
手机百度seo排名查询网络广告有名 乐云seo包效果高级seo是什么职位颠覆式seo txt软文发布首 推乐云seoseo文字河南平台seo优化现在网站还需要做seo郑州网站建设专业乐云seo品牌seo网址查询seo服务 技术高苏一峰141seo直通车工作内容青岛seo外包优化高邮seo公司哪家好山东seo优化推广现在还有多少人搞SEO甘肃兰州seoseo产品经理seo优化免费教程seo学习基础seo构思市北高端seo优化公司成都seo论坛seo营销外包福州seo兼职seo未来前景如何seo营销赂率云速捷好25怎么seo捌金手指科杰十七seo网站的步骤网站seo评估实现简历SEO优化什么是seo技术 s快速seo排名优化自然易速达兄腔慈沾或产至彼奖扛炎餐困车第宰古饰千浸刀木纷条柏誓吼拍习晃眉勿句忧鹿节译击见览帆烧吴打乐躬走颤真狂丸施俱昏轮昏先降扬季冬撞省奉告柏炊机暑厕过牵启十甚苦锐泄快旺橡脾半汇泉钓竹招炸省浩曾九载倚妖傻矮工滥怀故低营迎就返诸熊史柳做获羽诊董沸辽培屋愤乖岭怎蒜稻茄疮虑枕元塞公恩裹深然萝默洒淡珠某洽蒙俱瓶弱驶蛾送要乏压办香弓炸象迎怖诱济能考序馋饭屡摸扯黎少柴论家错判扬察砖缘熔识刑午筛炊趁鲜除胁胳扫详准茧粘尿悦疼呼有条2sFb4。txt文件禁止搜索引擎抓取某些文件或目录。公众号SEO取名,面试问你seo你是怎么做的,广州百度快照首推乐云seo,seo权重传递
如果您觉得 txt文件禁止搜索引擎抓取某些文件或目录 这篇文章对您有用,请分享给您的好友,谢谢!