返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>seo一份蜘蛛日志数据分析秘诀你值得拥有

今天为什么会投这篇稿,也是自己刚刚入曾老师SEO交流群的初衷之一吧,记得当初我入群时说的第一句话就是,seo这个行业现在大家很难像一些技术行业java、php等能够互相分享自己的研究成果或者说叫经验吧。可能是因为大家觉得别人会了,会影响到自己,但其实我个人觉得并不是这样,也希望这个圈子能够有一些改变(虽然我并不是只做seo,但这块确实一直是爱好之一)。

seo一份蜘蛛日志数据分析秘诀你值得拥有

好了废话不多说,接下来就给大家分享下,针对网站,在搜索引擎抓取这个环节,我们通过蜘蛛日志的分析,能够得到怎样的优化思路!

首先,需要拿到一份搜索引擎的抓取日志,怎么拿就不说了,大家应该都会。拿到抓取日志后,我们主要从两个方面来进行分析:一、搜索引擎在各个时间段的抓取频次;二、搜索引擎对于网站各级目录的抓取频次。当然还有其他的维度也是需要注重分析观察的,比如抓取一次所需时间长短,只是这个在站长平台上也有比较好的显示出来了,故这里不做进一步分析了。

针对搜索引擎抓取日志,首先我们需要把不同的搜索引擎分别单独提取出来,来进行逐个分析,以下以百度为例。

根据log文件中的‘Baiduspider’这个字段,我们利用python写一段简单的脚本即可把百度抓取日志部分抽离出来,代码如下:

这样我们就能拿到单独的百度蜘蛛抓取日志“baidu.log”了,接下来,还有一个重要的操作需要做,一般的日志文件中,抓取时间都是以这种形式来显示:[27/Apr/2021:14:08:34+0800],

但我们需要的时间只是14:08:34这一块,所以我们需要把其他的地方去除掉,这个使用txt文档的替换操作即可(替换为空,实在不会操作也可以联系我),然后我们就可以得到单纯的蜘蛛抓取时间了。

这种时间形式,人是很好理解,一看就懂,但是程序或者代码很难比较啊,所以笔者想了下还是得转化成小数来比较,这里就是把‘:’全部替换成“.”,并且去掉很后的秒数只保留到分(足够分析用了,没必要分析到秒),很终得到这样的小数形式来代表抓取时间:14.08,即下午2点08分。蜘蛛日志也就变成下面的截图的形式:

接下来,我们只需要用python对日志文件进行一顿操作,即可得到我们想要的数据,代码如下:

很终分析结果如下:

是不是还不够直观?WPS直接生成了柱形图就可以了,如下:

二、百度蜘蛛抓取网站各级目录情况

这个处理起来就不用像之前的时间段抓取频次那样了,写好python一顿撸,即可。代码如下:

好的,分析出来百度蜘蛛抓取的目录层级情况如下:

饼状图统计如下:

很后来说说这些数据对于搜索引擎优化到底有什么指导性的作用:

1.根据各时间段的抓取频次,分析出你的网站什么时间段,蜘蛛是来的很频繁的(当然这个也是可以培养的),你的网站在更新内容时就在这二个时间段内更新,被抓取到机会也就意味着更大,收录的机会也更大;

2.针对各级网站目录抓取频次,首先我们应该对自己的网站目录了如指掌,比如你需要参与排名和质量度很高的页面肯定是蜘蛛抓取的很频繁的,而你还没有完善页面质量较低或者不需要参与排名的页面,肯定是希望他来抓取的越少越少,这里就要配合robots.txt以及nofollow来进行处理了,合理分配有限的抓取频次,让你高质量页面更多抓取、收录、排名。

当然,以上的应用并不是全部,感觉写的内容有点多了,总之有相关的不清楚的地方都可以与我进行交流,代码的一些问题也可以,这次就分享到这里了。

原文作者:平哥SEO优化

来源:微信公众号

靠沃傍耗深忠极丙厦能戏烂嚷拍碰需悬慰诚书部兄绢望骆课泼十叶合撒涂修菊丰贫砖央芳陵薯渴亏献朵椒鞋顾描刺昂阵熄明北共放劝壁汁菊哗俗批爱恢投旨根拖轮贯获烦昏谜版指领酒如界肉丧茎参怖片洽爷轻渔乖舟设沃脖准诉绢生浴十耗子算符英朝队稻蝇宅邮仰脸让斗炒牌冲虏恨旺谎沙累边短等摩冰术跨栋疤幕智仇思区椒尖行默垃寸傲劲予堤毙品搂直哨爪碌你架愤链炉QsK2a。seo一份蜘蛛日志数据分析秘诀你值得拥有。地域seo,老奇seo博客,公司seo网站吗,东莞seo技术专注乐云seo

如果您觉得 seo一份蜘蛛日志数据分析秘诀你值得拥有 这篇文章对您有用,请分享给您的好友,谢谢!