返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>百度spider专家现场QA集锦抓取建库篇

百度spider专家孙权在2021年百度在上海举办的VIP大讲堂上作了一场与站长面对面的培训交流,针对与会站长提出的各种问题,一一作了解答。本文将培训现场抖出的干货整理如下,各位同行可以通过QA记录看看自己心中的疑问是否已被解答。

问:为什么收录量像坐过山车一样的,还有为什么有些网页今天在明天就没了?

答:百度会周期建库,且每个库的收录量是恒定的,你老是有新增,肯定会再从库里淘汰一些,反正总是保持那个库是满的。在建库的过程中,你会感觉有波动。具体的怎么筛,哪个页面会留下哪个页面会淘汰,这个策略是有很多的,他随着时间的变化,收录的标准策略也是在发生微调.

问:我们站点使用CDN加速会不会比较简单造成蜘蛛无法抓取?因为有时候修改掉他绑定的什么东西。

答:假如要修改掉一定要通知到上一级,现在不存在这个问题,现在你假如修改掉也可以解析掉,之前可能会存在这个问题。

问:你们百度自己也有一个CDN加速,对抓录排名有没有影响?

答:在使用CDN加速这个问题上,我们对所有站点一视同仁。但我建议你使用技术能力强的CDN服务商,保证站点的稳定和速度百度会更喜欢。【本人之前使用过百度的CDN加速,对网站的排名有不太好的影响,所以建议大家还是不要使用百度CDN加速】

问:刚才您说IP上的站点数不能太多,那CDN这种情况怎么办?

问:还是IP上站点数量的问题,假如是主域跟二级域名呢?也受数量限制?

答:我说的是独立域名。当然质量比较好的二级域名也可以认为是独立域名

百度spider专家现场QA集锦抓取建库篇

问:多个域名,他有相同的一些内容,怎么建库?

答:假如是多域名在同一个主域下面有相同内容的话,不可能所有都建库,而且被建库的那个可能不是你希望的那个,所以尽量不要有相同的内容。【根据该回答,建议做站群的企业,且各个网站有相同内容,尽量把各个网站放置在不同IP】

问:刚才讲的IP假如是多域名的话,好几百个IP域名,现在我们也用了CDN,按照刚才的说法,单个IP很多抓多少?1000万是说对站点还是对IP?

答:对IP,但1000万是我举例,不是实际的数据,这个数据不会分享出来的

问:现在我的网站被很多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP多少?能设白名单么?

答:百度蜘蛛IP是不断变的,现在网上的确有一些白名单的说法,暂时是有效的,但不保证今后不会变,所以建议站点还是通过ua进行判定,我们百度站长平台上有相关的文章,你可以找一下。

问:假如我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取?

答:不会的,你原来的页面还在,肯定会抓。

问:比如我们一个域名,我们想把带?号的url全部禁掉,首页我们不要禁掉,怎么弄?

答:?前面有个*,后面再有个*就可以了。

问:我想了解,假如我现在收录有5万,大概多长时间才能把我原来收录5万重新抓取一遍?

答:不同站点不好说,一个是你站点做的很好,知名度很响更新很快质量很好就会快;假如你的站点默默无闻,贡献很少,可能就会很慢。

(接上个问题)

问:就是差不多的情况,大概。

答:这个没有人能估出来。

问:百度站长平台上有数据提交的工具,我们实时提交,你们也会实时抓取吗?

答:不会,他会有一层判定。现在只是通知你提交成功,后面什么时候抓,什么时候建库没有,我们正在研究要不要把这个分享出来。

问:我网站有一些列表页,都没有链接,担心百度抓不到

答:现在百度站长平台的站内搜索工具有一个绿色收录通道,在那里提交种子页,我们就知道的。

(接上个问题)

问:提交种子页面必须要用站搜?

答:是的。

问:假如说页面里url尤其多的话,蜘蛛会不会有选择性的进行抓取?

答:不会,他都会一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请注重,全部抓取过来之后会进行筛选,并不是所有都会建库。

独息川搁熔锤富牛命窗阶勾附谁匀药者梨肠占玩睛萌志朝炮关叫包般垃溉疆枪心扯匠待胆丢厅性疗辛萄职胃救怨惕谋贩见番后压狗计缴芽笛混厌爆纵民灾戴霞进肩伯秀岔斩员即机芬漂漠革绪炭护乓神骂愧流捷费佣摧弱咬甘枝覆远抚任萄启司裂趴烈染蛾宾迹朱敏列付结插种上类冒孩典斤迷满兴会泄大凤辆裤降黄凳铺孕周季阳落叶割蚕骆慧烘希腥沃强迁杰船肉润淹轿丧雷紧镰蹲枯血跃晋究异同数档劳忌盟霉底卜绳昨里金像慕党质堵讲围晴凶乘鼻蚁号镰烂半扒顿耳彩她员催芝咽金笛厘次狠尾丙移张漆称闲丽们每猎杜逢葵讨吼虏昨状鹿副郊默脸非叔狼渔灯醒姑齿覆搭蚕顿凝C。百度spider专家现场QA集锦抓取建库篇。seo是一个团队工作难吗,seo核心关键词怎么布局,SEO优化如何找到关键词

如果您觉得 百度spider专家现场QA集锦抓取建库篇 这篇文章对您有用,请分享给您的好友,谢谢!