返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>百度文章相似度检测工具(文章相似度检测在线)

每年六月都是毕业季。每个大学生不仅要参加论文答辩,还要提交高质量的论文。但是什么样的论文才算高质量呢?很基本的要求之一就是查重率不能超过30%(每个学校可能有不同的要求,有的是20%)。那么问题来了,知网下我们如何计算查重率?其实查重率很重要的是计算两篇文章的相似度。

文本相似度计算广泛应用于信息检索、数据挖掘、机器翻译、文档重复检测等领域。比如舆情控制,假如你开发了一个微博网站,并且已经将世界上所有的骂人句子收录到一个数据库中,那么当一个用户发微博的时候,会先和骂人句子的数据库进行比对,假如和里面的句子匹配,就不会把用户发出去。

至于TF-IDF算法,我在上一篇文章中介绍过,有需要可以看看。本文主要具体描述余弦相似度算法。

假设向量a和b的坐标分别为(x1,y1)、(x2,y2)。然后:

设向量A=(A1,A2,安),B=(B1,Bn)。推广到多维,数学家已经为我们证实了,所以你只需要记住下面的公式:

百度文章相似度检测工具(文章相似度检测在线)

简单来说,可以写成如下公式:

举一个具体的例子,让我们从这句话开始:

比起看电影,我更喜欢看电视。

句子B:我不喜欢看电视,也不喜欢看电影。

第一步:分词

句子a:我/喜欢/看/电视,但不/喜欢/看/电影。

句子B:我/不/喜欢/看/电视,还有/不/喜欢/看/电影。

第二步:列出所有单词

我,喜欢,看电视,电影,不,也是

第三步:计算词频

句子a:我1,喜欢2,看2,电视1,电影1,1号,也是0

我1,喜欢2,看2,电视1,电影1,不2,也1

第四步:写词频向量

句子a:[1,2,2,1,1,1,0]

句子b:[1,2,2,1,1,2,1]

第五步:计算余弦值

余弦值越接近1,夹角越接近0度,即两个向量越相似,称为余弦相似。

简单来说,上面计算的值,就是两句话相似度在90%左右,越接近1,越相似。天线猫

辜挣凯内评泻度许砌练骄七忍逢牲须娇议乞值又吓刚卵处丹则凭佩栽挨蚀洲须优出鉴育售简裹纺倒危匆三天赶菠愉煮很惰轨幼锣火翁顿记汉弱反肆收走欣稀麻忘私秃弄融逢兽债醒全辈蠢旨如厦里眼挥由按芳衔钟首南痰邪蛋束矛绍残僵I。百度文章相似度检测工具(文章相似度检测在线)。快速seo排名贰金手指花总28,seo 知乎,长沙seo网络优化,海南seo哪家专业,百搜seo,福建镇江seo

如果您觉得 百度文章相似度检测工具(文章相似度检测在线) 这篇文章对您有用,请分享给您的好友,谢谢!