关于百度搜索引擎对原创文章识别机制之己见
作者支招:新站或权重低的网站,在网站上发布了一篇原创文章时,多预备一篇文章在权重高的网站进行发布,并保留自己网站上的原创文章URL路径,当这篇文章被百度爬取时会顺着网页内容上的网址去爬取原创的URL网址文章原创度检查工具,不一定非要留锚文本,只要百度能识到是网址,且是在百度索引库中未存在的网址都会在短期内都去爬一次SEO原创文章筛选器。站长朋友们就可利用这点来引导蜘蛛对原创URL路径的爬取,虽然不一定是放出来,只要搜索引擎爬取了至会认定你这篇文章的原创因素会大一点,如有可查看网页日志的朋友查询日志便可知晓百度蜘蛛是否来爬取过(如图2),只要保持每天更新一篇原创文章,百度蜘蛛会百常喜欢来的,就本文而言发布刚好在20分钟左右就被百度爬取回去,此时在被其它网站转载也无防,给百度的第一印象,本篇文章是本站的原创性较大。
参考因素二、链接的指向关系
链接指向识别
图片说明:链接指向,语义结构及内链等
百度在爬取网页内容时,根据内容关键词、语义、图片等信息分析进行综合计算后与所在目录标签、网站关键词类型、内链结构关系等进行技术分析对比,判断出文章原创价值系数(如图2),各种内链指向对应关系以同种色彩表示,与其它文章建设内应关系;内容语义与标签都是同个类目,文章关键词,描述等以搜索优化为主,符合网站主题,那么本文章对于我的网站首推网而言,百度判定文章原创系数到少为中等,首推网符合原创本篇文章的对应要求。通过链接指向判断基本可确定为原创信息的基本因素之二。
SEO原创文章筛选器作者支招:原创文章需做好网站的内链,将关键词指向到对应类似的文章,并且原创的文章必须符合自己网站的主题,图片方面必须通过自己的网站上传,可得到自己网站的路径信息,并加注ALT标签,如若在其它权重高的网站发布能图文类的信息,图片最好采用远程URL路径加图(即图片URL路径为原创网站的),有些人转载文章图方便直接复制过去,图片路径仍保留原网站的,这点百度系统足以判断文章系转载。
参考因素三、文章特征关键词
首先我要说下百度为每个网站所建立特征信息编码SEO原创文章筛选器,一般百度收录到一个新的网站后都会建立属于该网站独一无二的特征编码,以备对文章原性质进行识别判断。文章特征关键词也称内容特定关键词,类似于人的特征信息,如相貌,言行举止等,若作为文章来讲,比如说作者署名、编辑名及特定的名称,如作者的网站“首推网”,这个就可做为网站独有的特征关键词,百度首先经过词库判断选出文章的特征词一个或多个然后通过数据对比分析库判定文章的特征词在当前网站中所使用的频率,文章中的特征词与当前网站对比,计算出该文章的特定词与网站特征库对比获取的概率高,将会列入作为原创基本因素之三的特征。
作者支招:在原创文章中尽量合理地穿插自己网站的名称、作者名称或网站所常用且较为独特的词语(可参考本篇文章,关键是合理,能让阅读顺畅,切不可盲目乱加,否则适得其反)。
参考因素四、转发的轨迹
转发的轨迹就不用我多说了吧,我只说下百度判断原理,之前我们说过,百度每收取一个页面都会将页面中所有的网址或属于具有网址特征如后缀为.com、.cn的域名等等,都将会纳入到链接选取系统进行分析获取转发的轨迹次数,文章版权所留的网址或所标名的来源网址在百度所爬取的信息中存在最多的,且指向的是同一个网页URL来源,那么百度基本可以确定其文章的归属。这就是百度作为原创文章考虑的第四个因素。但现在的个别站长动机不纯,将文章转载过去后去除头尾,甚至打乱段落排序进行二次原创,俗称伪原创,在以前还可以,但现在的百度完全可以识别,进行二次加工实属多余,百度官方明确表示将加大力度打击该类文章和全部用软件采集类的文章,鼓励原创,还明确指出转载文章需保持文章的完整性,也至于不影响用户的正常阅读,降低用户体验。
作者支招:文章作为二次首发,介意把稿件推荐到知名站点,如站长类网站,A5或chinaz等知名站点,优质文章还是有很多网站转载,并保留了作者版权信息,在此借此平台像这类站长编辑表时感谢(如:919站长站、易得米、红黑联盟、海内、站长百科、看客网等等,由于文章限制不一一说明),尊重作者版权,尊重别人的劳动果实,相信更多站长会像你们一样,互联网圈将会有更好的发展氛围,更多的原创作品面市。
参考因素五、站点的历史原创情况
百度将会考虑网站的历史原创信息,将网站以往发的原创文章放入到文章原创库,并建立网站原创评分系统,这也是百度对网站的搜索排名权重考评的一个机制系统,你网站的原创评分系数高说明网站原创文章丰富,所发布的新文章给的权重相对也较高,不管是否原创,这类网站只要一发出新文章百分百是会被收录并且放在第一页,然后根据系统分析识别到是转载他人的文章后适当降降权,文章也不会被K掉,被这类网站所转载一般都保留了版权信息,对文章原创作者无害反而间接推荐了作者网站。作为新网站十天半个月都发出不了一篇原创文章,甚至更本就没有写过原创文章,突然放出一篇原创,百度也很难判定文章是你的网站所出,因为你网站的历史原创系数为零,内容基本靠转载或都采集而来,这就相当于狼来了的故事,一次上当了,二次上当了,三次肯定不会在上当了,百茺蜘蛛也是一样,作为刚上线的新站百度蜘蛛会天天来,来了却没有收获久而久之就不来了,因为百度蜘蛛很忙,偶尔不声不响地放个屁出来百度也不敢相信是你放的,所以文章原创重在坚持,掌握百度蜘蛛来访习惯,来时一定不要让她空手而归,再差的东西也要让她拿点回去,当然东西还得是自己写出来的,长期以往你网站的原创评分系数在不知不觉中便提高了,若不受其它因素影响你的网站权重提升也会很快。关于文章的历史原创评分这点作者也没有什么好招可支,作为新站必须原创一点新内容,相信只要坚持原创,持之以恒,滴水穿石,终将会有回报。
上一篇:优化方案的引申:搜索页面聚合
下一篇:如何判断老域名是否利于SEO
文章地址:https://www.tianxianmao.com/article/seo/ljdzxgx.html