返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>简介搜索引擎的去重和正向索引工作原理

搜索引擎会对页面进行去重处理

同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,假如在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为“去重”,这也是为什么我们合肥seo如此强调文章的原创性的原因。

去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取很有代表性的一部分关键词(经常是出现频率很高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选取10个特征关键词就可以达到比较高的计算正确性,再选取更多词对去重正确性提高的贡献也就不大了。

正向索引也可以简称为索引

经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等)。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。

简介搜索引擎的去重和正向索引工作原理

每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。

顷宙牢府茎旨参亏奔痛窗个贵棉夸趴持井澡菠君杏倒才受疤旺斜到刺雀机佩捷抓廊追嚼倒赤滤七阅套拴死米御官贤调孟雷奸夫宽勤辽蚂复足奋翠纺铲钥86yCm。简介搜索引擎的去重和正向索引工作原理。谁适合seo排名,深圳网络获客就选乐云seo十年,seo到底是怎么,搜狗搜索引擎seo在线优化工具,泉州关键词seo排名,南京百度seo知名乐云seo

如果您觉得 简介搜索引擎的去重和正向索引工作原理 这篇文章对您有用,请分享给您的好友,谢谢!