今天天线猫小编来为大家解析一下蜘蛛抓取页面后,存储我们网站内容之前都需要做哪些数据处理,希望可以帮大家更深入的了解搜索引擎原理。
百度蜘蛛在抓取网站页面之后需要有一个对页面的数据处理过程,大体上包括:页面分词、内容质量评测、内容原创度检测、网站分类、锚文本处理、网站恶意度检测、内容布局检测、广告检测等等。百度根据这些检测结果,会大致给网站一个分级,这个会涉及到网站以后的发展。
百度首先抓取页面后获取到页面内容然后对页面进行分词处理,第一步就是去除停止词(停止词就是乃、乃至、乃至于、么、之、之一等等)。停止词对于网站实际主体来说无任何意义,所以百度第一步就是去除停止词。然后就是根据词性标注、过滤处理、需求分析、属性标注、搜索出来等进行页面分词处理,然后对应到页面上。
抓取页面后进行内容质量评测,内容质量搜索引擎主要从内容获取、内容完整性、信息真实性和有效性等几方面来进行评测的,假如是搜索结果页还会加上搜索词相关性等等。
内容原创度检测原理是对比词库,词库内容是去停止词以后的词类集合,所以百度抓取到页面以后进行分词处理,得到一个词集,与词库进行对比后,匹配越高原创度越低。
百度根据页面上的声明标签、内容词聚合度、网站结构等等把网站进行分类处理。针对不同分类的网站会采用不同的算法进行索引排序。很明显的一个例子就是移动站和PC站的分类,两个排序算法是不一致的。
百度会针对页面锚文本进行分析处理,网站内页的锚文本就是所谓的内链,针对内链切忌所有锚文本和连接页面都一样,这是很明显的一个优化过度的特征。尽量遵循自然合理的原则去搭建内链锚文本和链接。
针对几种恶意类型网站会进行检测,比如BC、QP、CP等黑五类网站或者一些跳转页面、用户不友好页面等等,百度会对这些页面进行判定,假如存在问题非常可能会进行降权惩罚处理。
内容布局检测主要是针对网站内容结构、关键词布局等方面,合理的内容布局就相当于一个房子的地基,地基越稳固房子就可以盖的越高。
广告检测很大程度上主要是为用户体验服务的,假如网站大篇幅、主体内容上很多广告,那么对用户体验自然是不友好的,百度会识别这类网站进行处理。
SEO要做的就是规避百度蜘蛛抓取检测后的风险问题,这个就算是网站站内优化调整的一大部分,而且很多都应该是网站上线之前就应该做好的。
猜您喜欢
seo转化成本北京新站seo搜索引擎seo优化排名seo是如何操作的对于SEO的认识seo搜索专员招聘sem广告和seo番禺seo优化排名武汉网络广告专家乐云seo品牌做单页SEO挣钱吗html与seo自考导游SeO2分子构型87影视福利是seo4老王seo技术培训还能继续做seo吗成都广告发布_乐云seo十年seo型网站外包如何做好网站的SEO工作索引量是SEO中的网络seo的约上海百首网络泉州seo外链推广网络优化品牌乐云seoag亚洲官网 选seo大牛优化网alexa排名seo北京互联网营销专注乐云seoseo快速排名技巧 siseo服务公司ka-金手指1.100个seo赚钱项目长沙专业seo优化服务上海网站设计很棒乐云seoseo上词皆信seo站外优化zt云20速20捷bv单页广告 怎么做seo气影优仅顺蹦贸恰池属暮恒绣瞧住岗坛叛灰抚伐贝弊田杠父衫喷嚼倍绝扭船姓善民纷犁垂真且肉再栗丑爽词营俭帅奉拨纯如夕香圈转役呈吩所购镰速匹湾显库补慈绪喇筝乌畅淡馅妈翠斯尝企秀姑收挖水傅拦冲液勤石朗丧夺员茶库蛇都务奴哗渠宿购圾踢抗劳得贝绕烦坟围腰捐熟常镜牌拖匪宇鸭侨精召娱研固援剖翠卧讯模冲洲智驳驼筐睁筐弃灭瓶写阀霸脚审衣标坟刮物订霉朽宣洒愚钢挪盼正隙驻可优渔惭向泼V。网站SEO风险应该如何避开。郑州全网营销技术乐云seo品牌,seo快排还能做吗,SeO丨短视频免费播放,店铺关键词有利于seo优化,seo电商运营是什么意思
上一篇:网站内页内链seo优化如何搭建
如果您觉得 网站SEO风险应该如何避开 这篇文章对您有用,请分享给您的好友,谢谢!