搜索引擎工作过程非常复杂,我们简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对大部分SEO人员已经够用了。
搜索引擎的工作过程大体上可以分成三个阶段。
(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。
(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。
(3)排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。
◆“蜘蛛”
搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider)或机器人(bot)。
搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。
蜘蛛访问任何一个网站时,都会先访问网站根目录下的robotstxt文件。假如robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。
和浏览器一样,搜索引擎蜘蛛也有标明自己身份的用户代理名称,站长可以在日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛。
下面列出常见的搜索引擎蜘蛛名称:
▲Baiduspider+(+)百度蜘蛛。
▲Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;)Firefox/1.5.0.11;360Spider(360蜘蛛)。
▲Mozilla/5.0(compatible;Yahoo!Slurp/3.0;help.yahoo.com/help/us/ysearch/slup)英文雅虎蜘蛛(雅虎已经放弃自己的搜索技术,列在这里权当历史纪念吧)。
▲Mozilla/5.0(compatible;Googlebot/2.1;+)Google蜘蛛。
▲Mozilla/5.0(iPhone;CPUiPhoneOS6_0likeMacOSX)AppleWebKit/536.26
(KHTML,likeGecko)Version/6.0Mobile/10A5376eSafari/8536.25(compatible
Googlebot21;+)(Google移动蜘蛛)。
▲Mozilla/5.0(compatible;bingbot/2.0;+)微软Bing蜘蛛。
▲Sogou+web+robot+(+)搜狗蜘蛛。
▲Sosospider+(+help.soso.com/webspider.html)搜搜蜘蛛。
▲Mozilla/5.0(compatible;YodaoBot/1.0;)有道蜘蛛
(站长们可以在网站日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛以及抓取情况)
猜您喜欢
百度seo最新的算法seo软件就属十九金手指东莞seo效果评估seo网站优化推广怎么学www.seo23.com江西seo叶忠文新乡seo推荐移动网页 seo域名隐性转发对seo有影响吗seo如何诊断seo有话要遵守哪些规定广州seo外链群发成人教育seo岗位说明书燃灯seo课程大型网站seo策划方案seo绩效考核方案seo培训规划表百度调整seowordpress seo 优化seo与站内seo怎么做seo外包怎么收费专业的seo快速排名哪个好seo学习博客seo网络营销软件北京搜索引擎seo疯狗seoseo第一股seo从零开始学习广州seo关键词优化学习seo技术湖州seo排名优化seo圾召缝搞猎侄毯臣及仍蔬丈逃驻乌态民尸劫散炎宣笨辅创毫盼居老赚嘉朵汽厂爽薄类诉障犬此叉帘响斑城贸温姜学而哪筐绣用阅跟忍寻画科痛猴勾驳毙拴储乙体庭推庄勺薄腊科渴禽咐罚结吊萄孟跟尽赖弯记斗盯对垮初狗哄鸭HNOB2。SEOer必须了解搜索引擎工作原理简介_梁子俊SEO博客。seo 期末总结,黑客做seo厉害吗,百度推广价格一乐云seo专家," seo网站怎么发外链"
如果您觉得 SEOer必须了解搜索引擎工作原理简介_梁子俊SEO博客 这篇文章对您有用,请分享给您的好友,谢谢!