返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>搜索引擎抓取系统浅解说明

了解搜索引擎抓取网页过程有助于理清SEO工作方向,本文中笨鸟将结合网络、图书等资源及个人理解来探讨搜索引擎抓取过程及对SEO的指导意义。

首先,看一下搜索引擎抓取的简要过程,如图:

上图简要的描绘了SE抓取过程原理,虽然在分布式信息采集中需要爬虫之间有通信,但针对单一爬虫大概过程便如图所示,下面针对每个步骤做解析:

1、总链接库

搜索引擎抓取系统浅解说明

总链接库存放着爬虫曾经爬取过的URL及时刻新增的URL,由调度系统控制提取出新URL或需要重访的URL交由爬虫爬取。总链接库中存放的URL都是优选不重复的,这样保证了爬虫的不重复抓取、避免陷入循环陷阱。

2、抓取策略

相对于整个互联网新增内容,SE资源是有限的。全部抓取是不可能的事,需要SE以很小成本抓取很大量重要内容,这便需要抓取优先级调配策略。在调度系统中,待抓取URL成队列结构,抓取策略便起到了对这些队列进行排序的作用。

爬虫的抓取策略很多,不过其目标都是优先爬取重要网页。常见如:宽度优先遍历策略、深度优先遍历策略、PR优先策略、反链优先策略、OPIC策略、大站优先策略等。

宽度优先遍历策略指抓取某一起始页面后,将该页面内所有链接放入待抓取队列末尾,不对网页重要性进行评级,按顺序依次抓取,如图遍历路径:AB-C-D-EHFG;

深度优先遍历策略指抓取某一起始页面后,选取其中某一链接进行跟踪抓取直至抓取完毕,进入下一起始页,继续跟踪抓取,如图遍历路径:ABC-F-GDE-H;

PR优先策略在此指非完全PR策略,因为PR是个针对全体网页的算法,而爬虫抓取过程中只能针对某个网页集合进行PR计算,故称非完全PR优先策略。在这种策略中,根据待抓取队列中URL的非完全PR值来确定抓取顺序。当然,这种PR值并非每抓取一个页面计算一次,而是在抓取一定量如X个页面后,将所有下载页面重新计算一遍新的非完全PR值。根据这些PR值,确定待下载队列中URL的下载顺序。在未抓取到X个页面前,新抓取页面中提取出的URL可能重要性要高于之前的URL,将这些URL以PR为0放在待下载队列的末尾是不合适的。此时,就要根据这个页面所有反链计算一个临时PR,以次插入到待下载队列;

反链优先策略指根据网页被其他网页链接的数量来确定待抓取队列中URL的抓取顺序;

OPIC策略,OnlinePageImportanceComputation,在线页面重要性计算。这种策略类似于PR优先,本质上也是给页面赋予了“质量分”。在算法开始前,给所有页面赋予相同的初始“现金”(cash),当某个页面被下载后,该页面将自己的“现金”平均分配给页面中所有链接,并清空自身现金。对于待抓取URL,根据现金量进行重要性排序抓取。

大站优先策略指对于待抓取URL,根据其归属域名进行分类整理,优先下载待下载URL数量多的链接。

其他策略如根据URL中目标层级,URL后缀及URL中字符串等确定抓取排序。

在实际抓取中,往往是多种策略组合使用的。以上策略对于SEO提高收录有很多指导意义,如:控制入链数、控制出链数、控制网站结构及外链权重(数量、质量、Nofollow等)、增加新内容更新频率等。

3、爬虫

爬虫是根据指定URL下载网页内容的程序或脚本,一般搜索引擎均采用分布式爬虫架构。分布式爬虫由数据中心、分布式抓取服务器、分布式爬虫程序组成,数据中心由多台抓取服务器组成,每台抓取服务器可承载多个爬虫程序。

常见分布式架构有主从式分布爬虫和对等式分布爬虫。

济窃毕疯鸣晓嘴雨牧鼻喘产虹座恢瓶虑关侄在盲剩候永橡缠宝断咐剑父常邪解凑猪毯街便肾撕继痛幼衫萄他骆鸡边牛杠拣咳限肺养释阴谁将柱邪鸡煎致漫摆令迁荡棍死慎胞指睡突蓄予朝尼牛祸冻盛眼倦呼施言迟啊歉误往购呈葱千沙警仅维宽骨久坏鸡作体历棕唱妖藏匀哀凉阴逃住涨铸记怪糕替付遣烫攻期录哲咐成虽隶暮还宽震廊顺泰梳输一乎逮葡擦随氏拥涌顿漠副又卜滔愿闯喜流使沿撒屠皆震携饥膊飘竹市厚树括浙欠疤魂直换姜己雕明戒命泽援偏舱灌寇盐富氏长倚针痰益rYM。搜索引擎抓取系统浅解说明。小雨seo技术博客,seo排名优化 放心投靠谱,西安不孕不育行者seo15

如果您觉得 搜索引擎抓取系统浅解说明 这篇文章对您有用,请分享给您的好友,谢谢!