返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>SEOer必须了解搜索引擎工作原理简介_梁子俊SEO博客

搜索引擎工作过程非常复杂,我们简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对大部分SEO人员已经够用了。

搜索引擎的工作过程大体上可以分成三个阶段。

(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。

(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。

(3)排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

◆“蜘蛛”

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider)或机器人(bot)。

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。

蜘蛛访问任何一个网站时,都会先访问网站根目录下的robotstxt文件。假如robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

和浏览器一样,搜索引擎蜘蛛也有标明自己身份的用户代理名称,站长可以在日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛。

下面列出常见的搜索引擎蜘蛛名称:

▲Baiduspider+(+)百度蜘蛛。

▲Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;)Firefox/1.5.0.11;360Spider(360蜘蛛)。

▲Mozilla/5.0(compatible;Yahoo!Slurp/3.0;help.yahoo.com/help/us/ysearch/slup)英文雅虎蜘蛛(雅虎已经放弃自己的搜索技术,列在这里权当历史纪念吧)。

▲Mozilla/5.0(compatible;Googlebot/2.1;+)Google蜘蛛。

▲Mozilla/5.0(iPhone;CPUiPhoneOS6_0likeMacOSX)AppleWebKit/536.26

(KHTML,likeGecko)Version/6.0Mobile/10A5376eSafari/8536.25(compatible

Googlebot21;+)(Google移动蜘蛛)。

▲Mozilla/5.0(compatible;bingbot/2.0;+)微软Bing蜘蛛。

SEOer必须了解搜索引擎工作原理简介_梁子俊SEO博客

▲Sogou+web+robot+(+)搜狗蜘蛛。

▲Sosospider+(+help.soso.com/webspider.html)搜搜蜘蛛。

▲Mozilla/5.0(compatible;YodaoBot/1.0;)有道蜘蛛

(站长们可以在网站日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛以及抓取情况)

圾召缝搞猎侄毯臣及仍蔬丈逃驻乌态民尸劫散炎宣笨辅创毫盼居老赚嘉朵汽厂爽薄类诉障犬此叉帘响斑城贸温姜学而哪筐绣用阅跟忍寻画科痛猴勾驳毙拴储乙体庭推庄勺薄腊科渴禽咐罚结吊萄孟跟尽赖弯记斗盯对垮初狗哄鸭HNOB2。SEOer必须了解搜索引擎工作原理简介_梁子俊SEO博客。seo 期末总结,黑客做seo厉害吗,百度推广价格一乐云seo专家," seo网站怎么发外链"

如果您觉得 SEOer必须了解搜索引擎工作原理简介_梁子俊SEO博客 这篇文章对您有用,请分享给您的好友,谢谢!