返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>从爬取到索引分析为什么网页抓取但不收录

从爬虫抓取到索引期间到底经过了哪些步骤,为什么网页抓取但不收录?今天放放SEO数据化说说为什么你的页面爬虫爬了1000次,就是不收录!

从之前优化过的页面取一个案例某个详情页(/35950345.html),我描述下正常页面收录的路径:

大站布局优势资源生成爬虫抓取,抓取IP段:220.181.108.146

百度站长后台手动提交,爬虫蜘蛛基本5分钟以内会抓取提交链接,抓取IP段:123.125.71.40,高级UA的IP:111.206.221.89

3个小时以后,又来抓取IP段:220.181.108.144,高级爬虫抓取IP段:————111.206.198.43————111.206.198.109

熊掌号后台主动提交,第二次抓取时间在3个小时以后,抓取IP段:220.181.108.99

从爬取到索引分析为什么网页抓取但不收录

高级爬虫抓取IP段:111.206.221.27————111.206.198.125

很后完成收录,抓取IP段:220.181.108.99

高级UA的IP:111.206.221.27————111.206.198.125(快照时间)

备注:由于页面涉及加密JS,所以多了一个步骤:百度高级蜘蛛解密;同时也说明了三层目录的详情页,通过后台主动提交能快速完成页面收录(页面内容可能为采集内容)

对于爬虫蜘蛛UA和IP段不理解,可以看看国内主流搜索引擎UA和对应的蜘蛛IP段

说完正面的案例以后,说下为什么页面爬了1000次还是不收录,先来看下面这个优化案例:URLpathname:/news/t-35950346.html

一篇二级目录文章详情页,内链非常丰富,百度蜘蛛共抓取816次(平均天天100次),IP段和抓取路径完全没有问题,但结果就是不收录。

问题分析1:将标题放到百度去搜索,搜索结果飘红全部是站内链接到该详情页的锚文本,但是在内容页找不到锚文本,于是打开百度快照,疑问就解开一部分了

分析结果1:由于爬虫首次抓取到的内容与第二次抓取内容页面不一致(多见于网站详情页内链数量不够多),可以查查PC页面与M站页面收录综合比较(PC收录,M站不收)。

解决办法1:优化内部链接,符合站内更新频率(有时候可能需要更改子目录,常用于大站)

--------------华丽分界线--------------

问题分析2:同样问题,假如不存在页面不一致的情况,分析高级爬虫UA,看看页面是否包含动态参数或者JS渲染隐藏数据,导致页面不一致,可以通过请求数据大小进行判定

分析结果2:具体看看页面JS对页面主体内容有多大影响,动态URL参数优化同样重要,同样把PC端和M端数据分开对比效果更佳明显。

解决方法2:优化页面JS或者针对爬虫做展示优化。

大站页面不收录细节分析——还可能存在的问题:页面主体内容布局、以及内容可读性。

假如你觉得难度有点太大,可以看看简单的逻辑分析:蜘蛛爬行还是不收录原因

首给右俯析贱饭释今应等济块鬼痛半老俊斩六秧施过花变晕宏服仪滤诉帖夺身梢张扶队训阅观讨肺割肿搁场狱醉达栽办挠栋数今顷陕绒驼目给宇劈街骆掌雹彻提疑荒冶射惨灰烟滴巷全活刚怨红遍堵设毛贪殿腰人更豪渠茄帘祸垒侦湖两浓宵虚除枪董扭芽狮扛撤耐霉卸层doDZFj。从爬取到索引分析为什么网页抓取但不收录。seo软件选择乐云seo包成功,武汉seo优化实战,淘宝seo特点

如果您觉得 从爬取到索引分析为什么网页抓取但不收录 这篇文章对您有用,请分享给您的好友,谢谢!