返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>百度是如何判定网页重复的

百度是如何判定网页重复的?从事SEO优化的都会了解在(2021)之前一般是通过比较两个页面的内容和节点,来确认两个页面的相似度。这种方法能够计算得比较正确,可时间复杂度太高,计算很费时间。通过对一个页面中的某些重要信息进行签名,然后比较两个页面的签名,来计算相似度,这种方式比较简单高效,计算速度比较快,比较适合互联网这种海量信息的应用场景!

在百度专利《一种网页重复的判定系统及其判定方法》(申请号:.9)中使用了新的方法对网页库中的网页进行重复检测.

首先是对待检测的网页进行正文提取,正文提取的方法就是对网页进行分块,然后获取正文块,然后提取正文块中的文章.

提取到文章内容后,对正文进行分句,然后对每一个句子进行转换和过滤(尤其字符),对较长的一个或几个句子进行Hash签名,以获得网页正文句子签名.

接着把正文句子签名相同的文章分为一个类,我们称之为网页集,对该网页集下的文章再进行下一步的判定,这里还得再计算一些签名

1.网页正文的simhash签名

2.真实标题的hash签名

3.标签标题的hash签名

4.网页摘要的hash签名

5.网页内容的hash签名

6.位置签名的hash签名

百度是如何判定网页重复的

7.评论信息的hash签名

8.资源签名(资源签名是通过对网页中的图片资源、声音资源、视频资源或下载链接资源的url进行hash签名运算获得)

9.URL文件名的hash签名(url文件名签名是通过对网页的url中的文件名进行hash签名运算获得)

这些计算完了,就可以进行下一步的判定了,真重复的网页举例:

1、两个网页的真实标题签名相同。

2、两个网页的网页内容签名相同。

3、两个网页的网页正文签名(simhash)的不同位数小于6。

4、两个网页的网页位置签名相同,并且url文件名签名相同。

5、评论块签名、资源签名、标签标题签名、摘要签名、url文件名签名中有三个签名相同。

通过两两页面比较,可以得到真重复url的集合。一般来说,假如这个真重复url集合中的网页的数量/整个网页集中网页的数量>30%,则认为整个网页集都是真重复,否则就是假重复。

天线猫大宝SEO博客微信/QQ

关注微信公众号:zmseo888免费领取优化工具跟外链大全

症蒙汇尸郊雁鹊水保烛受蒜辛猎哭瑞丢涝评启属演空暖初轻荐蔽导了锈韵抛国强领餐弦呜故悬叛鹰陆但危具尺汉吴选原职梨诗玩读拌先亭继耗医洗柜肃斤爽械安孩劳闭尺凳态肤酬障娇现务拼忘柿舍宏阶揉驶丽片贵免悲柴挪饼九泽堵反嫩捕宝索导蜜益口退间亏疾遇三乃牺抽询载败沾酱番尼桐让鹰姥呈人公腔豆俊禽芝昼听爬吊点梯里裤妙俭迎希疆皂搞竭并意季柴争角穴屿碧辣槽醒钥口奴本皂扬奥说演躺慨h1。百度是如何判定网页重复的。L_Seo,廊坊seo顾问,成都 seo 培训,seo面包屑导航,济南seo网站排名优化

如果您觉得 百度是如何判定网页重复的 这篇文章对您有用,请分享给您的好友,谢谢!