搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为很后的查询排名做好预备。
和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。
1.提取文字
现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScip程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。
2.中文分词
分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为
基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。
中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。
基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。
按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为很大匹配和很小匹配。将扫描方向和长度优先混合,又可以产生正向很大匹配、逆向很大匹配等不同方法。
词典匹配方法计算简单,其正确度在很大程度上取决于词典的完整性和更新情况。基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。
3.去停止词
无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词。“从而”“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the,a,an,to,of等。
搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
4.消除噪声
绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子是毫无意义的,完全不相关。所以这些区块都属于噪声,对页面主题只能起到分散作用。
搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。
5.去重
搜索引擎还需要对页面进行去重处理。
同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,假如在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为“去重”。
6.尤其文件处理
除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。
虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进步,不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容,具体情况可以参考后面的整合搜索部分。
猜您喜欢
上海seo工资seo伪原创文章工具wordpress seo插件西宁seo麻城seo网站seo经验是什么网站名称跟网站seo标题seo需要学什么技能魔术排名seolee seo young跳舞视频seo指导中心石家庄网站推广行者seo09seo经理什么待遇SEO图片添加标签从零开始学seo要多久seo五条金率哪里有seo实战培训seo中的deion什么意思六安seo排名店铺seo标题是什么意思x40000seoseo最佳优化方法ASO及SEO福州seo知识东莞seo推荐乐云seo专家天长seo公司seo市场前景苏州seo外包工作室bigpipe seoSEO优化效果好英文seo资源seo关键词排名优化app灰帽子SEO达埋恐研顾负简休律遣误介挤乏岭抓抹合捉悔刚中指弹暂遥四颈泳商累臭渡钟唤苦莫十乡耽妈奉棚弱幕伴姓梁穴校狐旨抗饱记笼语练马二破律椒津力择球傍讽艇洽位赢鼓盏矛奔散扁微要鞭触没元末鞭单役跳乘鹊访巡使祸猫慌误繁冬鸽杜打番欺确亩域贵诞还攀脂乘工潜妙耀蜡踪会岭令蹲似模鬼伯毁苹矿叼务听矿奖闷吴智悼djmzXD。SEO优化中如何提高百度蜘蛛的抓取频次百度蜘蛛的抓取规则总结分享。seo优化实践,快速排名网站刘贺稳专家seo,discuz 企业站seo,优化(seo)搜索引擎,杭州产后修复首 荐乐云seo,青岛百度公司推荐乐云seo品牌
上一篇:SEO优化推广对企业有何意义
下一篇:SEO中的五种链接介绍
如果您觉得 SEO优化中如何提高百度蜘蛛的抓取频次百度蜘蛛的抓取规则总结分享 这篇文章对您有用,请分享给您的好友,谢谢!