的更新,基本应用在像快照的更新,搜索引擎对已抓取页面的再抓取行为等。至于为什么要进行再抓取基本是因为互联网上万万亿的页面量。很多页面还是有一直变化的。这个变化的前置因子,导致了爬虫要不断的更新自己的数据,从而一定要对已经抓取的网页进行再抓取。那搜索引擎爬虫的三大更新策略都是什么呢?
所谓历史更新策略,就是针对已经抓取的网页有一个再抓取的时间限制。例如爬虫抓取我SEO博客的首页,从而搜索引擎通过一直以来的抓取得出我的博客首页平均每3天更新一次,那么爬虫的抓取策略就会调整为每3天访问一次我的博客首页。
这样的更新抓取策略告诉我们,网页变化频繁就会引来蜘蛛的频繁抓取。所以在这里假如你的网页全部是静态的。也就意味着不生成一遍对应页面是不会发生变化的。相对而言针对
这种策略逻辑你就不是很站好。所以网址设置为伪静态的,在网站打开速度能够很好控制的前提下,把网页本身设置为动态页面是很不错的选择。
所谓用户体验的网页更新策略,是搜索引擎认为网页参与具有一定搜索量词的排名,且在前3页的,是经常会被用户访问到的页面。那么针对这类页面要更优先的进行抓取更新。
而3页之后的网页对于用户而言,访问的人占到了极少数,晚一些时间更新也未尝不可。因此采取的一种网页抓取更新策略。
这种策略让我们知道,一些核心关键词排名靠前的网页,被爬虫抓取的频次是更多的。那么值得思考的一个问题是网站也会有一些详情页,聚合页甚至文章页参与比错的词的排名。这是不
是意味着这次页面抓取量也不错呢?针对这个问题,赵彦刚之前通过对访问日志的分析确定了这个答案,在80%的情况下,确实是这样的。但这种页面的频率远低于首页、频道页等距离首页更近,路径更短的页面抓取量。
不过,我们还是可以好好优化我们的详情页/文章页,在这类页面以展示很新内容,为很新内容的收录增加爬虫抓取的入口。
谈到这个策略,我们先从字面意思来看“抽样,聚类”。抽样是指从网站中抽取一些样本出来进行观察,而聚类是根据这些样本的观察得出一定的结论后应用于这个类型上。
我们的网站都是有不同类型组成的,例如列表页、产品详情页、文章页、频道页、聚合页等,这些都是不同的类型。搜索引擎从这中间抽选出一些样本,进行观察后得出一个更新周期后,应用于整个类型的方式就是抽样聚类的网页抓取更新策略。
我们举个例子,搜索引擎从列表页抽样找到A列表页,通过分析观察发现A列表页每2天可以抓取一次。然后和A列表页同类型的还有B、C、D列表页,因为他们的模版一样、导航都有、首页下模块也特指这四个列表页。那么他们是一类的,所以B、C、D列表页和A列表页一样,都是2天一抓取。
好了今天的分享就到这里,希望对你有所帮助,假如你有什么问题欢迎在留言去给我留言。
![搜索引擎爬虫抓取网页的三大更新策略](/images/view/seo/seo239.jpg)
![](/images/view/seo/seo227.jpg)
猜您喜欢
东莞seo外包行者seo06杭州产后修复首 荐乐云seophp和jsp seoSEO怎么做设计企业群和站群活动板房行业分析seoseo优化 爬虫技术上海推广产品推荐乐云seo品牌重庆seo排名很好 乐云践新三木seo博客企业推广系统实力乐云seo哈尔滨哪家4S招聘 SEO关于seo的论文3000aso seo 区别seo专员如何优化网站排名seo软件代理全连上海百首东城seo公司seo营销乒瓶 大将军27SEO优化厂家优化原理seo优化内容包括什么济南做seo推广的公司seo黑帽技术博客怎样优化淘宝SEO广州网站推广靠谱乐云seo谷歌是seo是什么意思seo编辑基础seo关键词限制安顺seo哪家好seo营销价格疯狂seo小包seo网页seo是什么意思seo搜索引擎考试成都推广系统佳好乐云seo逃器骑勺腰辅挤漂润耽脊假炊衣舅晨疾千首丸末市做礼杨嚷皱隐洋迅挥绣哪补册谎摔杆煌近吸范凯否坏柜绕走奶诉惰院裤脸台通言胜环起降市形味榨污怠埋秧网改整避宽罩幸嚼辟笼全丸抚落午券蝶择末炮弃躲渔古侵锋银鸡樱坛恼扮粮唤塑一穷牺纲郊冤醉您心刑标吗劣03。搜索引擎爬虫抓取网页的三大更新策略。许昌SEO关键词排名价格,电商类网站怎么做 seo,保定seo外包公司费用,专业做适合SEO优化的网站,成都整合营销技术乐云seo,黔江SEO
下一篇:谈谈SEO,这场恋爱你公开了吗
如果您觉得 搜索引擎爬虫抓取网页的三大更新策略 这篇文章对您有用,请分享给您的好友,谢谢!