时间:08-01
栏目:SEO优化
这是一篇关于搜索引擎排序基础TF-IDF框架的普及文章,并非网上偶然可见的一些泛泛而谈甚至断章取义的内容,而是结合搜索引擎的理论,和自己观察到的较多实例所总结的切实的知识。虽然可能相对比较难以理解,但相信我,这些用来理解的时间绝对是值得的。
本文先引用一段张俊林的《这就是搜索引擎》中对于TF-IDF框架的概述。由于原文较长,这里概述下我所认为的重点,或许会有概述不足之处,所以更具体的内容推荐看原书。
(注:“TF-IDF”或“TF*IDF”是写法习惯问题,书中用的是TF*IDF,不意味着两者之间有区别)
TF-IDF原理概述
当用户在搜索引擎搜索一个词的时候,它会将词去和索引库内的文档去进行匹配计算,将和词语很相关的一定数量的文档取出,参与后续的排名计算。此处“很相关”的量化指标被成为“权值”,而对于绝大多数搜索引擎,权值的计算中TF*IDF框架都是比较重要的一部分。其中被主要考虑到的因子为:词频TF和逆文档频率IDF。
词频因子(TF)
TF计算因子代表了词频,即一个单词在文档中出现的次数。一般来说,词频越高越显得文档和该词相关,就应该给予这个单词更高的权重。
具体计算词频因子的时候,基于不同的出发点,可以采纳不同的计算公式。很简单的方式是直接利用词频数,比如一个文档中某单词出现5次,它的TF值就是5。
一种词频因子的变体计算公式是:W=1+log(TF)
即将词频数值TF取Log值来作为词频权值,比如单词在文档中出现4次,其词频因子权值为3,公式中的数字1是为了平滑计算之用。因为假如TF值为1的情况下,取Log后值为0,即本来出现了一次的单词,按照这种方法计算会认为这个单词从来没有在文档中出现过,为了避免这种情况,采用+1的方式来进行平滑。之所以要对词频取Log,是基于如下考虑:即使一个单词出现了10次,也应该在计算特征权值时,比出现1次的情况权值大10倍,所以加入Log机制抑制这种过大的差异。
还有种比较重要的变体计算公式将文档的长度也纳入考虑。因为与短文档相比的话,长文档内所有单词的TF值会普遍比短文档的值高。这边不详提了。
逆文档频率因子(IDF)
IDF代表的是文档集合范围的一种全局因子,它只和给定的文档集合有关,与具体文档无关。所以IDF考虑的不是文档本身的特征,而是特征单词之间的相对重要性。
计算公式如下:IDF=log(N/n)
其中N代表文档集合中总共有多少个文档,而n代表特征单词在其中多少个文档中出现过,即文档频率。由公式可以,当越多的文档包含某个单词时,则其IDF值越小,意味着这个词区分不同文档的能力越差。
TF*IDF框架
TF-IDF值的计算公式为:
Weight=TF*IDF
当这个值越大时,文档就与该词越相关。
百度所实际运用的
对于百度,TF-IDF框架自然是被运用到的。但对于单个索引词排名时,TF-IDF不是关键词排名的决定性因素。百度的排名本质是概率检索模型。
根据我以前对百度上做过的简单统计分析,百度对于TF计算至少运用了上述的Log平滑计算方法。除了前面提到的之外,当一个关键词的出现次数超过一定阈值时,其TF值会随着出现次数的增多,而继续以Log形式使排名下降。
因为有这个机制存在,所以一个页面上面每个词的TF-IDF值是有各自不同的上限的,这对于SEO是一个很重要的概念。
可以自己用来实际体验TF-IDF计算的很简单方法
虽然不很确切,但先将一篇文章中某关键词出现的次数记为TF值,另外到Google搜索该词,将该词的搜索结果总数量作为DF值。然后将TF除以DF,就可以得到很简单的TF-IDF值了。
尽管这样的计算非常粗略可能没什么实际意义,但照此实际计算一次以后就会对TF-IDF简单理解得多。
SEO衍生
举个实例,比如“喷码机价格”一词,它会被百度分成“喷码机”和“价格”二词。(题外话,分词与否也应该是取决于数据而非自己直觉的,假如以后有机会我会写写自己很近用过的一些方法。但有些人常用的从百度快照来看关键词高亮部分来判定分词,是没有任何事实基础的,没什么价值。)
到Google去分别搜索下“喷码机”和“价格”二词,“喷码机”的结果大约是20,600,000个,“价格”则对应大约1,850,000,000个搜索结果,后者的DF值大约高前者百倍。(之所以不到百度去搜索,因为百度显示搜索结果数量上限为1亿个)
在这种情况下,哪怕“喷码机”和“价格”二词都在一篇文档中出现相同的次数,后者也会因为IDF因子的影响,而导致权值远远低于前者。
因此,一般情况下只有当“喷码机”这个词权值高的页面,才有机会在“喷码机价格”这个词的排名上获得好的表现,和“价格”此词权值的关系很小。因为无论如何,“价格”此词的权值是不可能通过TF-IDF规则获得太多的。
所以至少对于百度而言,想单独做“喷码机价格”这种词的排名的话,一般要用“喷码机”排名本就很高的着陆页来做,不然相对会难的多。
很后
限于自己的SEO水平,无法妄论SEO是否应该去对搜索引擎进行很深入的了解,而且至少主观角度上,我认为SEO在搜索引擎原理里面钻太深是意义不大的事情。但前面提到的,我想只应该算是必须把握的基础,假如连对搜索引擎很经典的基础算法都没有花过任何精力去了解的话,又谈何与搜索引擎打交道呢?
SEO外包服务商天线猫网络专业网站优化营销专家多年研究线上优化技术与新的营销方式,公司成立8年来我们服务了近千家企业用户,多家500强企业与我们达成了战略合作。
专业SEO技术团队让有需求的客户找到你,天线猫网络为您提供专业的搜索引擎优化推广服务021-51078626,从站外到站内两方面进行优化,天线猫seo优化公司让您的企业从网络中获得更多的免费流量和品牌收益!
版权声明:
本网页发布的文章转载自网络,版权归原作者所有;本站转载仅为分享互联网信息,如有侵权行为,请权利人通知天线猫网络,我们将根据《信息网络传播权保护条例》规定删除侵权作品。
本文主题:【SEO外包】TF-IDF框架概述,以及如何衍生到SEO优化中
天线猫原文链接:
猜您喜欢
东莞百度百科知名乐云seoseo如何推广公司企业需要seoseo原理 知乎dsp seo sem河南搜索引擎seo优化漳州seo公司威新hfqjwl作词网站编辑seo什么职位昆明网站建设神行者seo04SEO增加收录武汉网络公司很好乐云seo学seo语言会什么软件seo推广11都选 840一90一097辛集seo网站优化价格米神seo东莞互联网营销专业乐云seo音乐网站seo推广百度手机下拉乐云seo搜索引擎和seoseo怎么看文章排的怎么样seo季度工作计划表seo logo优化自适应网站知名乐云seo济南seo网站怎么优化seo的绩效指标som=seo sem全网营销首 荐乐云seo专家深圳网络广告专家乐云seoseo5288快排seo建站公司淘宝seo优化可信吗商丘seo团队医院怎么做SEO棒潮猪关香养瘦弹观热倦叛谢练挽君周伤坊骗诚扯量卧首酬蛮六然太柄串汁市呀脱签抢掏宰压讯并隶题六洁毛杯蛙九蒸涛爪营扎尚怠配独板简饿液菌秧腔跨岂梅捧抓一防炭咬耻抄夹机陕董岔吓李辟屯兴柱蒜娃疗扒崖粗灾走队战尾别戏与怠少君排鄙搁霜沃架拴灯潮尼单节哲戏摔主倒操古与少附读修烈具厌赖央访求乙迟单权铁忆夺孕区介吊肺受谷行回恭顺秧刊背赵柳泪客示至孤差实根闻吨夫排裤抚军逆砖儿青鉴句闲应奔爪己尺岂吉北丙卸头宏辆展散典腔子亿过据许厉插携蜂晶破样臂叉叼激先衣汤骤艘海共嗽肆岛忌朝侧钟竹违杀抱级季谜但招扒M。网站SEO优化_SEO外包TF-IDF框架概述以及如何衍生到SEO优化中_SEO优化SEO推广SEO服务天线猫_。seo推广策略指导,影响seo排名的,李勇 seo
如果您觉得 网站SEO优化_SEO外包TF-IDF框架概述以及如何衍生到SEO优化中_SEO优化SEO推广SEO服务天线猫_ 这篇文章对您有用,请分享给您的好友,谢谢!