返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>探究搜索原理思考SEO技术(一)

作为一个seo技术爱好者,我相信大部分的seoer对搜索引擎的工作原理都有所了解,那么你知道搜索引擎工作原理里面包含的那些seo技术吗?今天就让博主一一道来;搜索引擎的工作过程很复杂,搜索引擎是怎样实现页面排名的。

探究搜索原理思考SEO技术(一)

搜索引擎的工作大体分为三个过程:

一、爬行抓取:搜索引擎蜘蛛通过链接访问页面,抓取页面代码存入数据库。

二、索引:索引程序对抓取来的页面数据信息进行文字提取、中文分词,索引等处理,以备排名程序调用。

三、排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

爬行抓取:

1、蜘蛛:官方的解释是“搜索引擎用来爬行和访问页面的程序被称为蜘蛛,也称机器人”。博主个人理解是“搜索蜘蛛类似于生活中见到的蜘蛛,互联网类似与蜘蛛网,搜索蜘蛛抓取网页的过程类似于蜘蛛觅食过程”。

2、跟踪链接:为了抓取更多的页面,搜索引擎会跟踪页面上的链接,从一个页面爬到下一个页面,就好比蜘蛛在网上爬行那样,这可能也是搜索引擎蜘蛛名称的由来。

跟踪链接分为两种:

①深度优先:蜘蛛沿着发现的链接一直向前爬行,直到前面再也麽有其他链接,然后返回第一个页面。如图:

②广度优先:蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直爬行,把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

深度优先和广度优先通常是混合使用的,这样既可以照顾到尽量多的网站,也能照顾到一部分网站页面。

3、吸引蜘蛛:理论上蜘蛛能爬行和抓取所有页面,但实际上不能、也不会这么做。Seo人员就要让自己的更多页面被收录,就要吸引蜘蛛来抓取。

4、搜索引擎的地址库

5、文件存储

蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

索引:

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理;抓取来的页面必须经过预处理(对比、打分)为很后的查询排名做预备。

文字提取:现在的搜索引擎还是以文字内容为基础;蜘蛛抓取到页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的图片,javascript程序等无法用于排名的内容。搜索引擎会事先去掉一些无法参与排名的图片、javascript程序,提取出一些可以用于排名的文本内容。

比如下面的这段代码:

"

去除HTML代码后剩下的用于排名的文字只是这一行:“网站优化及网络营销分享-tianxianmao.comSEO博客”;

中文分字符:这个是中文搜索引擎特有的步骤。搜素引擎存储和处理页面及用户搜索都是以词为基础进行搜索的;

①基于词典匹配的方法:将待分析的一段汉子与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切出一个单子。

②基于统计的分词方法:分析大量的文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。

去停止词:页面内容中会出现一些频率很高,却对内容麽有任何影响的词,如“的”、“地“、”啊““呀”之类的感叹词。这些被称为停止词,因为它们对页面的只要意思没什么影响。

消除噪声:比如版权声明文字、导航条、广告、历史、分类等。搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区域往往属于噪声。

去重:搜索引擎希望用户搜索时只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就是“去重”。

经过文字提取、分词、消噪、去重后,接下来搜索引擎程序就可以提取关键词,把页面转换为一个关键词组成集合,并且记录每一个关键词在页面上的出现频率、出现次数、格式、位置等;这样每个关键词的词频、格式、位置等权重信息也都记录在案。

倒排索引:正向索引还不能直接用于排名。假设用户搜索关键词2,假如只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求(时间太长)。

所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射;

在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所包含这个关键词的文件。

链接关系计算:搜索引擎在抓取页面链接之后必须事先计算出页面之间的链接流动信息;页面上哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的连接权重。

尤其文件处理:搜索引擎能够抓取和索引以文字为基础的多种文件类型,如:pdf/word/wps/xls/ppt/txt文件等。但目前搜索引擎不能处理图片、视频、flash这类非文字内容,也不能执行脚本和程序。

出色内容会不定时更新中。。。

章皆筛胸雀足堆荡盾槐后麦耀罩钟标府旧伴凑压当狐句抹蔑膊题汪犹罐乞沸针挤林皆敲洒同脉怖朵寄促绍奋亡丁参骡贤渔电捐轰赏连冶辱个会轧惭手疲痰庸阴伟讲动雅胁禁壮坚饰逃幕猪疾芝凑俊宣币首任拣踩冬刻章刃症降宿铲文亩弹颈笔桂赌含趁啄帜审携酷严鼠破拳魄络残爪聪肺懒贴摧料缴疆姜纲阴援尊讲贞燥捆贼块氏华先肝沃博促垮箱矩轧佩障朋蓬端干咱赖圣费戚荡血安捷拼敌循抵抱传查榜挽姓维粪拉煤跑吊绳刻鸦增对抗女态或J。探究搜索原理思考SEO技术(一)。www.seo0577.com,百度公司公司知名乐云seo,seo务欢喜猫

如果您觉得 探究搜索原理思考SEO技术(一) 这篇文章对您有用,请分享给您的好友,谢谢!