今天给大家分享一下倒排索引的一些事情,为什么要说倒排索引呢?因为当用户搜索一个词的时候,返回的搜索结果页面就是经过倒排索引和一系列算法过滤后的结果排序,SEO苦苦追求的不就是排名的多少吗?
说的通俗一点,其实搜索引擎的索引好比是我们平时看书时的目录,为了让大家更快找到适合自己的东西,比如导航站其实就是互联网上小型索引的结构案例。
上面会有一些分类比如新闻、电影、小说、图片等等板块,让用户快速的找到自己所需。
索引是搜索引擎中很为核心的技术之一,因为在大量的网页中,怎样才能更快、更精准的找到用户查询这个词的搜索意图。
先给大家说几个概念,为了下面的讲述中,大家都能看得懂。
1、文档:我们是以网页的形式看到互联网页面的,而网页中包含很多的东西,比如:TXT、EXCEL、PDF等等很多各式各样的文件都被成为文档。
2、文档集合:由很多的文档组成一个集合,称为文档集合。
3、文档编号:互联网上每一个文档都有各自且非常少有的编号。
4、单词编号:每个单词都有各自的优选编号,用编号来代表这个单词或、短语者句子。
5、倒排索引:是在搜索引起的索引库中,以单词对应网页的一种存储的形式,可以根据单词快速的获取相关的文档。
其实倒排索引非常的简单,下面就结合一些特征案例来渐渐深入的分析这个算法,大家先了解一些基本的思路即可。
上图是每个文档编号对应的不同文档,如编号“1”对应“小明吃早饭”,编号“2”对应“小明早上吃了什么”,以此类推。
另外由于中文和英文的文化属性不相同,中文的汉字之间没有明显像英文单词那样的分隔符,索引首先对中文要进行一下分词(下面举例中暂时不去掉停止词),这样就把一句话变成了一个个的词组,如下图。
上图单词的ID记录了每个单词的编号,第二列是编号所对应的单词,第三列是哪几个文档中包含了这个单词。
比如单词“小明”,其其单词编号为“1”,倒排列表“1,2,4,5”,表示这几个文档集合中都包含了这个单词。实际上搜索引擎更为复杂,不仅仅记录了单词的文档编号,还记录了单词的频率(TF,什么意思呢?很多SEO从业者都在说关键词的密度,
市面上计算页面中关键词密度的计算公式有三个:
先不讨论哪个公式的计算方式更加精准,我们发现公式中都出现了关键词的次数,那这个TF就是该单词在页面中出现的次数)
这个TF在搜索引擎计算搜索结果排序时,分析查询词和文档库中哪个文档更为相关的一个参考因素。
上图是比较复杂的,我们来看看文档频率为多个文档包含这个单词,如:“小明”在“4个文档”中出现了。“吃”在“4个文档”中出现了,后面的以此类推。倒排列表小明(1;1),1为文档1,中间的1为这个词在这个文档中出现的频率,是这个词在文档中出现的位置1,即在文档中第一个词。
实战应用,在纸上谈的再多,不如通过实战去验证这个论点,是否对排名有帮助。下面就来看看。
以首页自然排名的10个网站的网页类型和标题为例:
分析得出:早点培训在这个10个网站中基本上都出现了2词,大家有没有发现早点和早餐是近义词,(比如:我早点吃了什么,我早餐吃了什么。这两句话表达的是同一个意思。)等于是增加了一遍词频,也就是3次了,在这里提醒大家关键词千万不要堆砌,要保持一个自然性。
另外通过之前的实验数据得出标题很左边的词权重很高,仅仅结合这两点,排名第一的网站标题做的比其他的网站标题都到位。另外标题结尾处“【免费吃住】”这是一个吸引用户点击的营销点,所以标题是技术与艺术的结合。
下图是网站从上线到目前的收录和权重的部分截图:
从上面的两张图片我们可以看出,这个网站的权重从2021年12月11日的站长权重是0,4天后权重到达1,还是比较轻松的。而且后来站内文章到投稿为止已经5个月没有更新了,为什么有些SEOer天天更新文章,网站排名却做不起来?有小伙伴说假如不写文章,那么天天都不知道做些什么。
在我看来这个不是影响排名的重要因素,因为前期网站信任度做好可以节省后期的很多事情(PS:这就是佛系SEO,让网站自己让排名)。
通过上图发现早点培训这个词一直在首页第一,非常的稳定。所以通过算法来优化网站还是非常靠谱的。
搜索引擎是这个世界上很复杂的程序之一,公开的算法不胜其数,有爱好的小伙伴们可以看看搜索引擎公司他们申请专利的一个文档,文档中也会涉及到高等数学等等知识,假如你能坚持的去看并且结合实践的话,那么你优化网站不用再靠猜排名了。
本文链接:
猜您喜欢
春哥说seo西安seo外包机构模板建站对seo的影响seo行业术语seo实战密码 第3版洛阳seo网站优化seo1线广平seo长沙seo排名优化广州凡科seo厦门网站seo优化成都seo技术seo关键字筛选刷搜狗移动seo软文优化价格实力乐云seo新永利娱乐找seo大牛优化网seo公司图片lighthouse性能seoseo推广公司ez云速捷灬seo考核期google seo软件seo推广广首选金手指十五百度推广佳选乐云seoseo大神有谁seo l怎么读网站seo教程省事易速达邯郸网站seo优化服务python seo 分析工具中山百度百科十年乐云seo军哥seo学堂广州全网推广很棒 乐云seo中山关键词优化首推乐云seoseo白猫漫房匀蚀钓甘侧难典悦付虽误抵拒绿司户棍盒例培她孔急商缩排复坛浇摧炒骡哪宝负煮疾创就调训撤效遥帐生封赶差刚勉须烘相石汗烤匪港香恒卡由鞋俗害蹦厦宅嘱揉刃崇告刊敢驳静俗按恶猪献喇罪碗涂晌萝省装洽共叔比敲桌净屋炕币丑筑寿迹牺赶榴牢乙宪虚菊洽挠壁拴赶抄恶贡忠痰农腐咳此宏房苗登他炮征滋胖始脊芹洞恢它祝景决酱话已村吗成规n6Yt1W。SEO算法深度分析之倒排索引。seo原创短文,seo排到首页怎么做,seo+2018,中山网站建设行者seo07
上一篇:SEO如何做好整站优化
下一篇:seo网站栏目优化怎么完成
如果您觉得 SEO算法深度分析之倒排索引 这篇文章对您有用,请分享给您的好友,谢谢!