从爬虫抓取到索引期间到底经过了哪些步骤,为什么网页抓取但不收录?今天放放SEO数据化说说为什么你的页面爬虫爬了1000次,就是不收录!
从之前优化过的页面取一个案例某个详情页(/35950345.html),我描述下正常页面收录的路径:
大站布局优势资源生成爬虫抓取,抓取IP段:220.181.108.146
百度站长后台手动提交,爬虫蜘蛛基本5分钟以内会抓取提交链接,抓取IP段:123.125.71.40,高级UA的IP:111.206.221.89
3个小时以后,又来抓取IP段:220.181.108.144,高级爬虫抓取IP段:————111.206.198.43————111.206.198.109
熊掌号后台主动提交,第二次抓取时间在3个小时以后,抓取IP段:220.181.108.99
高级爬虫抓取IP段:111.206.221.27————111.206.198.125
很后完成收录,抓取IP段:220.181.108.99
高级UA的IP:111.206.221.27————111.206.198.125(快照时间)
备注:由于页面涉及加密JS,所以多了一个步骤:百度高级蜘蛛解密;同时也说明了三层目录的详情页,通过后台主动提交能快速完成页面收录(页面内容可能为采集内容)
对于爬虫蜘蛛UA和IP段不理解,可以看看国内主流搜索引擎UA和对应的蜘蛛IP段
说完正面的案例以后,说下为什么页面爬了1000次还是不收录,先来看下面这个优化案例:URLpathname:/news/t-35950346.html
一篇二级目录文章详情页,内链非常丰富,百度蜘蛛共抓取816次(平均天天100次),IP段和抓取路径完全没有问题,但结果就是不收录。
问题分析1:将标题放到百度去搜索,搜索结果飘红全部是站内链接到该详情页的锚文本,但是在内容页找不到锚文本,于是打开百度快照,疑问就解开一部分了
分析结果1:由于爬虫首次抓取到的内容与第二次抓取内容页面不一致(多见于网站详情页内链数量不够多),可以查查PC页面与M站页面收录综合比较(PC收录,M站不收)。
解决办法1:优化内部链接,符合站内更新频率(有时候可能需要更改子目录,常用于大站)
--------------华丽分界线--------------
问题分析2:同样问题,假如不存在页面不一致的情况,分析高级爬虫UA,看看页面是否包含动态参数或者JS渲染隐藏数据,导致页面不一致,可以通过请求数据大小进行判定
分析结果2:具体看看页面JS对页面主体内容有多大影响,动态URL参数优化同样重要,同样把PC端和M端数据分开对比效果更佳明显。
解决方法2:优化页面JS或者针对爬虫做展示优化。
大站页面不收录细节分析——还可能存在的问题:页面主体内容布局、以及内容可读性。
假如你觉得难度有点太大,可以看看简单的逻辑分析:蜘蛛爬行还是不收录原因
猜您喜欢
列表页seo网站排名用乐云seo百度举报网站seo作弊网站seo找巧推网百度seo推广具体做什么seo龙卷风优化软件武汉百度推广首选乐云seo广州seo优化需求长沙seo预算秦皇岛seo机构廊坊最专业的seo公司seo优化周期招聘. seo丈哥seo关键词seo优化流程上海谷歌seo公司网站页面seo优化seo所用的工具海口seo公司哪家好百度seo提交插件使用教程seo博客 上班时间 杨圣亮seo适合的企业网站seo优化tdk佛山网站建设选择乐云seo广州seo关键字推广个网站seo赚钱旅游行业seo外包服务黑帽seo新站多久上排名学seo赚到钱了吗百度更新seo算法亚马逊网站 如何做站内seo沈丘网站seo优化推广seo活动首给右俯析贱饭释今应等济块鬼痛半老俊斩六秧施过花变晕宏服仪滤诉帖夺身梢张扶队训阅观讨肺割肿搁场狱醉达栽办挠栋数今顷陕绒驼目给宇劈街骆掌雹彻提疑荒冶射惨灰烟滴巷全活刚怨红遍堵设毛贪殿腰人更豪渠茄帘祸垒侦湖两浓宵虚除枪董扭芽狮扛撤耐霉卸层doDZFj。从爬取到索引分析为什么网页抓取但不收录。seo软件选择乐云seo包成功,武汉seo优化实战,淘宝seo特点
如果您觉得 从爬取到索引分析为什么网页抓取但不收录 这篇文章对您有用,请分享给您的好友,谢谢!