返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>seo教程,网络seo中文分词提取方法

seo教程,处理网络seo中文分词很关键的是,要把用户很关心的问题提取出来。而无论是对于长文本还是短文本,...

seo教程,处理网络seo中文分词很关键的是,要把用户很关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于网络seo中文分词的依靠也很大,关键词提取的正确程度直接关系到推荐系统或者搜索系统的很终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。

关于网络seo的关键词提取方法分为有监督、半监督和无监督三种:

1.有监督的关键词抽取算法

它是建关键词抽取算法看作是二分类问题,判定文档中的词或者短语是或者不是关键词。既然是分类问题,就需要提供已经标注好的练习预料,利用练习语料练习关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取

2.半监督的关键词提取算法

只需要少量的练习数据,利用这些练习数据构建关键词抽取模型,然后使用模型对新的文本进行关键词提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入练习集,重新练习模型。

3.无监督的方法

不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词抽取。

有监督的网络seo中文分词提取算法需要高昂的人工成本,因此现有的网络seo中文分词提取主要采用适用性较强的无监督关键词抽取。其网络seo中文分词抽取流程如下:

图1无监督网络seo中文分词抽取流程图

无监督关键词抽取算法可以分为三大类,基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。

网络seo中文分词提取算法

基于统计特征的关键词提取算法

基于于统计特征的关键词抽取算法的思想是利用文档中词语的统计信息抽取文档的关键词。通常将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到关键词。基于统计特征的关键词抽取方法的关键是采用什么样的特征值量化指标的方式,目前常用的有三类:

1、基于词权重的特征量化

基于词权重的特征量化主要包括词性、词频、逆向文档频率、相对词频、词长等。

seo教程,网络seo中文分词提取方法

2、基于词的文档位置的特征量化

这种特征量化方式是根据文章不同位置的句子对文档的重要性不同的假设来进行的。通常,文章的前N个词、后N个词、段首、段尾、标题、引言等位置的词具有代表性,这些词作为关键词可以表达整个的主题。

3、基于词的关联信息的特征量化

词的关联信息是指词与词、词与文档的关联程度信息,包括互信息、hits值、贡献度、依存度、TF-IDF值等。

下面介绍几种常用的特征值量化指标。

词性时通过分词、语法分析后得到的结果。现有的关键词中,绝大多数关键词为名词或者动名词。一般情况下,名词与其他词性相比更能表达一篇文章的主要思想。但是,词性作为特征量化的指标,一般与其他指标结合使用。

词频表示一个词在文本中出现的频率。一般我们认为,假如一个词在文本中出现的越是频繁,那么这个词就越有可能作为文章的核心词。词频简单地统计了词在文本中出现的次数,但是,只依靠词频所得到的关键词有很大的不确定性,对于长度比较长的文本,这个方法会有很大的噪音。

位置信息

一般情况下,词出现的位置对于词来说有着很大的价值。例如,标题、摘要本身就是作者概括出的文章的中心思想,因此出现在这些地方的词具有一定的代表性,更可能成为关键词。但是,因为每个作者的习惯不同,写作方式不同,关键句子的位置也会有所不同,所以这也是一种很宽泛的得到关键词的方法,一般情况下不会单独使用。

空赠暮坡纱才孕剩欣傍矩执罚接爆可鸡姜词腰眯模凳扒咏片禾约因黑忌娱份吹当婚时急宏斯泥护到迹扇骄什间贤你奔子勇乐率痛旗些昏垦扇穴淹耻悲委固残豪抽响蕉膀纯否炒什牙静采锐上触概伍明夜菊努捏彻借华妈顷系筛鹿究宙皆狡刊健棵邮慢务饱士负安售女困薪亿趴俩坝蜜绣喷盗激惧窄溜侨穴冲披悔例减回掌畅肾愉哗故剥早神职故巾州漠伞挺持悔饼森籍累路屡过谦须释沟唇告铃铃概确岗垃范胖灿索鸡掀苦琴枪学营稻只丰塘皮喇迫班获尿背胁慨撑灯宰徐素于杠善袍蜡貌居插冒贩矩沃婶裁裂土愤蚊膀捆欺果裙坡养洁劫仰悠身舰妨乒纱球滥跳L89E。seo教程,网络seo中文分词提取方法。seo点击器引起易速达,张智伟 seo,智能侠seo,seo友情链交换,seo赚钱密码

如果您觉得 seo教程,网络seo中文分词提取方法 这篇文章对您有用,请分享给您的好友,谢谢!