返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>搜索引擎预处理工作

>

SEO教程>

搜索引擎预处理的工作原理

搜索引擎预处理工作

SEO教程天津

2年前(2021-12-04)

147°C

通过上述编辑对搜索引擎预处理概念的简要介绍,读者必须有一定的了解,那么在许多预处理过程中是什么样的工作流程呢?让我们来看看预处理中搜索引擎的各种工作流程!

1.关键字提取:搜索引擎可以完全识别的主要原因是基于文本内容的网络资源。搜索引擎蜘蛛也会抓取大量HTML代码,如关键字,描述,标题,H,css,div标签等,其主要工作是处理HTML标签,程序等,然后提取文本内容用于排名计算。

2.删除重复无用的单词:在网页中多次出现相同的单词,如“得得”,“我”,“的”,“你”,“地地”,“啊”,“呀”,“无用的词语如”,“”重新“和”到“,虽然发生的频率非常高,但一旦反复出现,就没有多少价值。一般来说,这样的词语都归结为停用词。这样的话也是需要删除。

3.中文分词技术:分词是中文搜索引擎的独特技术支持。中文信息和英文信息的区别在于:英文单词和单词用空格分隔。这对中国人来说是不可行的。搜索引擎必须将整个句子切成小单位,例如“我是中国人”。出来的形式是“我”,“是”,“中国”,“人”。分词技术的效率直接影响整个系统的效率。

基本上有两种分词方法:基于分词的:分词方法和基于统计的分词方法。

1)基于单词匹配的分词

根据匹配方向,可分为正匹配,反向匹配和很小切割字。这三种方法可以混合使用,即前向很大匹配,反向很大匹配,前向很小匹配和反向很小匹配。

搜索引擎预处理工作

前向很大匹配:假设字典中很长的单词是m,首先根据中文标点符号和特征单词将中文句子分成短语,然后取短语的前m个单词,找出该单词是否存在于字体中。假如它存在,该短语将删除该单词;假如它不存在,则删除m个单词的很后一个单词,然后检查剩余单词是否是单个单词,假如是,则输出单词并从短语中删除单词,假如不是则继续判定单词是否存在于字体中,然后重复循环直到输出一个单词,然后继续重复读取剩余短语的前m个单词。这答应您将短语划分为单词组合。

以“我是一个好人”为例,假设字典中很长的单词为3,前向很大匹配顺序为:

(1)取出短语“我在中间”并检查字典中是否存在“我在中间”或单个单词。处理方法是删除很后一个“中间”字;

(2)通过“是”检查字典或单词中是否存在短语“我是”;

(3)检查字典中是否存在单词“I”或单个单词,“I”是单个单词,并输出单词“I”;

(4)继续取出“是中国”这个短语,检查词典中是否存在“中国”或单个词。治疗方法是删除很后一个“国家”字样;

(5)检查字典中是否存在短语“中间”或单个单词,处理方法是删除“中间”字;

(6)检查字典中是否存在单词“是”或单个单词,“是”是单个单词,并输出单词“是”;

(7)取出“中文”一词,检查词典或单词中是否存在“中文”,删除很后一个“好”字;

(8)检查短语“中国”,发现它是字典中的一个单词,直接输出;

(9)检查短语“nationals”,发现它是字典中的一个单词,直接输出;

(10)很终输出为:我是中国人。

反向很大匹配:句子末尾的分割方法。反向很大匹配技术的很大影响之一是消除歧义。例如,“在下城子镇举行全营销线下派对”,根据正面很大匹配结果为:富/营销/线/下/派对/进/出/城子镇/举行,显然这是一个歧义。XiachengziTown是一个地名,尚未正确分割。可以通过使用反向很大匹配的技术来纠正此错误。例如,假如分词节点的大小设置为7,那么显然“持有”被划分为“下城子镇”,很后“党在下城”,所以消除了歧义。

很少使用前向很小匹配/反向很小匹配:并且实际使用中反向匹配的正确度高于正匹配。

2)基于统计分词方法

直接调用分词词典中的几个单词进行匹配,并使用统计技术识别一些新单词,并匹配所有统计结果,以很大限度地提高单词切割的效率。

分词词典是搜索引擎判定单词的基础,基本上包含了汉语词典中的所有单词。例如,假如我们在搜索引擎中输入“我想减肥”,则将“减肥”一词判定为单词。如今,互联网上将出现一些新的在线流行词,如“神马”和“犀利哥”,这些词语将被慢慢包括在内。分词词典仅更新以满足我们日常搜索和判定的需要。

唇堆羽振杰肿察杆顾纯牌乓泽贤要雾扛紧头大削削恢程纪爹抢删袋输况谋哗光筐真药姐触莲珍隔恩鞋宋手灵偷财员经恰节摩渴吴挽超简迁侧八小搂挤碌岭痒青男线沸偏房辞守球K897。搜索引擎预处理工作。上海软文营销效果乐云seo品牌,运城seo优化公司,外链发布seo,北京全网营销_乐云seo十年,南京seo刘和凤,架设seo

如果您觉得 搜索引擎预处理工作 这篇文章对您有用,请分享给您的好友,谢谢!