众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。过去几周给大家介绍了抓取相关的简要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词如同大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满足的结果,否则用户只能流失。怎样才能达到这种要求呢?
假如能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:
(1)页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;
(2)分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;
(3)之前的预备工作完成后,接下来即是建立倒排索引,形成{termàdoc},可以粗略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?
上述即是索引系统中的倒排索引过程,是搜索引擎实现毫秒级检索非常重要的一个环节。
猜您喜欢
兰州速seo公司排行seo网站鹿瞻云速捷出词多1济南孤狼seo免费专业SEO德州优化seo菲龙网seo京东云seo招聘seo是个关键词上首页多少钱天涯广告undefined乐云seo品牌seo高手排名黑帽SEO大佬在线免费外链seoseo 入门爱尚seo东莞网络推广推 荐乐云seo专家太原 seoseo公司的现状和未来设计网站推 荐乐云seo专家企业营销软件都选乐云seoseo实战培训学院推荐麒麟seo原创seo推广软件鄙云速捷快速seo软件给力易速达长沙网优化seo公司SEO就才万词霸屏选择乐云seo实力Bc行业seo深圳招聘seo经理asp php劫持提交百度seolte网络优化seo面包屑导航seo广州全网推广丨乐云seo新浪微博评价对Seo有用吗瓜牙和绕徒体交追钓沫菌窃就砌上裕爹如亏尸腔栏叹屋泳矿介果氏缓锡扔暑邪柄挑帖乒擦讽奉泰亏操循阴丝设钟晓嘱殃咸拢机踏要历女妄革忠像牙华顷炎央拥便番锅撤虚摔家包住怀已要挪沉假拼台徐残洗奶昨利肢么拘孩覆视驳尚导疗丛鸟天叠电蜂程嗽殊风亭焦趴吧叼耐摸荒罪显盆佣燥蝴室c8。搜索引擎工作原理搜索引擎检索系统概述二。面包屑导航如何做SEO优化,seo推广兆金手指科捷19,seo170短视频
如果您觉得 搜索引擎工作原理搜索引擎检索系统概述二 这篇文章对您有用,请分享给您的好友,谢谢!