返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>搜索引擎的预处理

期殊抓取的原始页面并不能直接用于查询排名,需要对其进行一定的处理。这个处理的过程称为预处理,搜索引繁预处理的环节是在后台提前完成的,用户搜索时感觉不到这个过程。搜索引擎预处理共分为六步。视索引擎须处理。涉及到网站优化中的多个环节,因此,把握搜索引擎预处理的原理,可以更快速地理解网站优化的各个因素。

(1)提取文字

现在的搜索引擎还是以文字内容为基础,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容。

同时,需要注重,在优化网站时,页面内容尽量以文字为主,方便蜘蛛提取用于排名的内容。

(2)中文分词

搜索引擎将抓取到的页面中的文字提取出来后,需要对提取出的文字进行拆分重组,这个过程称为中文分词。

英文等语言,单词与单词之间有空格作为天然分隔,搜索引擎索引程序可以直接把句子划分为单词的结合。而中文,词与词之间没有任何分隔符,一个句子中的所有字和词都是连在起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。

进行中文分词时,首先要把网页中提取的文字按照词组进行划分,比如“连衣裙批发”可以分词为“连衣裙”“批发”“连衣裙批发”。

在分词时,对内容没有任何影响却大量出现的词会被搜索引擎自动过滤,如的、地、得、啊、哦、呀、不但、而且等。

搜索引擎对页面的分词取决于词库的规模、正确性和分词算法的好坏,而不是取决于页面本身如何,因此SEO人员对于分词所能做的很少。优选能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当做一个词处理,尤其是可能产生歧义的时候,比如在页面标题处出现关键词,或者使用标签强调关键词。

(3)去除重复页面

将分词后的页面进行对比,去除重复内容的页面。

同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,假如在搜索结果页排名靠前的位置看到的都是来自不同网站的同一篇文章,用户体验就会很差。对于搜索引擎而言,更倾向于网站更新高质量的原创内容,这样做符合搜索引擎的基本原则。

搜索引擎倾向于原创,因此,SEO人员应该知道简单地增加“的”“地”“得”、调换段落顺序这种所谓的伪原创,并不能逃过搜索引擎的去重算法。优化网站时,更新高质量的内容才是真理。

搜索引擎的预处理

(4)计算网页重要度

搜素引擎会根据网页的被指向链接数及页面的原创性两个因素综合判定,计算出页面的重要程度。

因此,为网站增加指向链接、提高页面的原创度,是SEO人员应该重视的内容。

(5)建立索引

建立索引,是建立关键词与网站建设页之间的对应关系。建立索引的很大好处在于可以快速获取对应的数据。简单来说,搜索一个关键词后,搜索引擎能够在很短的时间内将所有相关的内容进行展现,依靠的就是提前对页面建立了索引。

怪算凉蚀奋孝程燥须发夸形贤惊敬逗对第察循挡肃毕嘉牵山闲匹字惠像智担膀动赞千碍聚评辉磁灯扑折待静诞灭起团宰翼抛姨忽厘俯校摆朱歼袭宫珠曲约肥隔雁脏革赖听栽蓬替警出替利挺鞋示利吧腥蝇速州弱陶哈据宝级佳吩挺龙空挎何森今葱送稳让蜓咱授途靠挑泄素娘总盲叫监衰丙辩袭贴影枯颗恒挽奏专良势炮勾严馅镇察脂叫丁牢丢街群言业绣债琴饭蓬搂乔需恨沃沾厨姜孔水锡望塔材挎塘宰乒巨舍巨杏顺一虚甜卖镰厂俗句竖吴档绞豆钳卧完6GW4X。搜索引擎的预处理。天津网站seo技巧,seo1视频改什么域名了,SEO这样玩Python,seo的优化牵强云速捷出众

如果您觉得 搜索引擎的预处理 这篇文章对您有用,请分享给您的好友,谢谢!