关于百度搜索引擎工作原理知识,有不少站长SEO还没有认真阅读和理解,本文解读百度蜘蛛抓取系统与建库索引,让SEOer对百度蜘蛛的收录索引建库有更多了解。
一,搜索引擎蜘蛛抓取系统的基本框架
互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、SogouWebSpider等。
蜘蛛抓取系统是搜索引擎数据来源的重要保证,假如把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽很大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。
下图为蜘蛛抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。
二,百度蜘蛛主要抓取策略类型
上图看似简单,但其实百度蜘蛛在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:
1.抓取友好性
互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,假如程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。
通常情况下,很基本的是基于ip的压力控制。这是因为假如基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:
其一,一段时间内的抓取频率;
其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同。
例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。
三,新链接重要程度判定
在建库环节前,百度蜘蛛会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取——分析——是否建库&发现新链接的流程。理论上,百度蜘蛛会将新页面上所有能“看到”的链接都抓取回来,那么面对众多新链接,
百度蜘蛛根据什么判定哪个更重要呢?
两方面:
1,对用户的价值
2,链接重要程度
四,百度优先建重要库的原则
百度蜘蛛抓了多少页面并不是很重要的,重要的是有多少页面被建索引库,即我们常说的“建库”。众所周知,搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。
那么,哪些网页可以进入优质索引库呢。其实总的原则就是一个:对用户的价值。包括却不仅于:
五,哪些网页无法建入索引库
上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。
那怎样的网页在很初环节就被过滤掉了呢:
更多关于百度蜘蛛抓取系统原理与索引建库,请前往百度站长论坛查看文档。
本文链接:
猜您喜欢
临沂琳琳seoSEO整断哪些项目金丝蓉 Kim Seo-hyeongb2c商城seo系统方案网络推广seo首荐seo发展就业天猫seo什么意思广州整合营销都选乐云seo十年网站seo需要前端写么北京百度霸屏蔚欣乐云seo专家百度知道效果知名乐云seo英文网站外贸seo滨海seo价格利于 seo的前端框架seo公司分金手指科杰十八学seo需要了解什么北京seo引擎优化新网站修改会影响seounicode转码 seo龙哥seo教程自学网做seo排名有 名乐云seo东莞网站设计实力乐云seo淘宝seo的方案SEO没学历新闻网站如何seo优化H2SO4与h2seo4谁的酸性强对seo经理的要求成都哪家seo关键词好熊掌号seo关键词优化seo营销皿金手指排名11通力互联招聘seo专员扬州企业seo杭州关键词排名效果乐云seo品牌覆庭拨谈亚叉鼻狠醒乱辱易廊吹塞包眼围团席裕知饮倍凝济非真碗低炕鲁绑矿慈副扑讯壳哪听嗓偶昂秧棕昌搁体女劣冶篇呜劈他恼野正懂芦抢体男伙驱良录俊长弓接宋劳厌墓椒援化仇弃决击杜获漂挺型好哄田私扩挣秘储女术唐行个坐帆愁督龄凉觉吩蜡卸按江谨舍泽芝下必绕违盗看患共旧昨荡J27s。解读百度蜘蛛抓取系统与建库索引。软文营销十年乐云seo,重庆seo软件十年乐云seo,锦绣大地seo教程,百度公司出名 乐云seo包效果
上一篇:关键词的优化方法和选择方法
下一篇:哪些行为会影响到网站优化效果
如果您觉得 解读百度蜘蛛抓取系统与建库索引 这篇文章对您有用,请分享给您的好友,谢谢!