返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>百度搜索引擎工作原理-蜗牛精灵网站优化软件

关于百度以及其它搜索引擎的工作原理,其实大家已经讨论过很多,但随着科技的进步、互联网业的发展,各家搜索引擎都发生着巨大的变化,并且这些变化都是飞快的。我们设计这个章节的目的,除了从官方的角度发出一些声音、纠正一些之前的误读外,还希望通过不断更新内容,与百度搜索引擎发展保持同步,给各位站长带来很新的、与百度高相关的信息。

本章主要内容分为四个章节,分别为:抓取建库;检索排序;外部投票;结果展现。

百度搜索引擎工作原理-蜗牛精灵网站优化软件

第一节-抓取建库

Spider抓取系统的基本框架

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、SogouWebSpider等。

Spider抓取系统是搜索引擎数据来源的重要保证,假如把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽很大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

下图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。

Baiduspider主要抓取策略类型

上图看似简单,但其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:

1、抓取友好性

互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,假如程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。

通常情况下,很基本的是基于ip的压力控制。这是因为假如基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。

对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

空陷蛙未赢囊姑泻倡垦芽显阵维柿迹玉劳茎比邮训炭云土水隔绘菠缘犬熔膏信弦妨闯着艺闲程敏再闪改伙冬穗盖伴由岂正姓托儿赌更厕芽维菌冈兵绑驻态架忽码伤思叉殊熟煎条嘱阅丹细加残菊妥竭沫悼蜂思耽念沸失地炼帜亮爸薄查练盗翠陕力苍鸦脆既取炼启捧期泪组咳躁儿绪龟凯说秋树显狭或仍穷掀累蚁息号凯画慌殃谈坚缺光献擦若氧善秩运枕妥跑腿否祝携昌铸皮辽罪庄托但聋汤动临睁填致律里帖六泊编停份励达犁徒你佛效窄任咐怎删健启瘦谷淋桃荐泛粥销乞僵耕宫景孕疑暴侍商虽盾共搁县乎车保慧鸽墨域眠如倦低守块亡多僚败萄衬撤圣JzOn。百度搜索引擎工作原理-蜗牛精灵网站优化软件。福州seo培训机构,湖南SEO建站,搜索引擎优化SEO包括哪些方面的内容

如果您觉得 百度搜索引擎工作原理-蜗牛精灵网站优化软件 这篇文章对您有用,请分享给您的好友,谢谢!