奶妈的一个站流量用超了,很开始以为是图片被盗链导致了,分析了下日志才发现,是AhrefsBot这个垃圾蜘蛛在疯狂的爬站,不到一天时间爬取了6000多次,我X。果断研究如何封禁AhrefsBot垃圾蜘蛛,下面给大家介绍下垃圾蜘蛛是什么。
AhrefsBot是一个国外的搜索引擎蜘蛛。不过对你的网站来说除了浪费资源外,没有任何好处。
简单说,AhrefsBot是一个营销网站的爬取蜘蛛,负责分析你网站的链接信息,这个工具对于国内用户来说,有luan用。
具体的介绍你可以查看他们官网的英文解释。ahrefs.com/robot
奶妈通过对一天的网站日志进行分析,你们猜猜一共有多少个不同的AhrefsBot蜘蛛ip来抓取网站数据?
居然有561个IP,而且只是不到一天的日志记录。
官方公布的AhrefsBot爬虫IP段如下:
54.36.148.0/24
54.36.149.0/24
54.36.150.0/24
195.154.122.0/24
195.154.123.0/24
195.154.126.0/24
195.154.127.0/24
好了,既然这样变态,下面就开始来想办法封禁AhrefsBot的抓取吧。
被AhrefsBot蜘蛛爬取的站服务器用的阿里云,阿里云后台有安全组可以使用,所以直接屏蔽AhrefsBot的IP段,是很简单粗暴,效果立竿见影的方法。
进入阿里云后台,进入你的服务器列表,点击服务器的安全组,配置安全组规则。
按照上图的方法配置,把下面这些ip段全部添加进去就行了。(奶妈是直接把54.36.*.*和195.154.*.*的IP都封了)
54.36.148.0/24
54.36.149.0/24
54.36.150.0/24
195.154.122.0/24
195.154.123.0/24
195.154.126.0/24
195.154.127.0/24
通常来说,只要是遵循robots规则的蜘蛛或者爬虫,都可以使用robots.txt来禁止它爬取。AhrefsBot官方也说遵守这个规则,不过实际上是假如你不是一开始就添加了这个规则,你都不知道它蜘蛛什么时候才会重新爬取你的robots.txt文件来修改抓取规则。
所以暴力点,直接封IP比较快。假如要添加,规则如下:
User-agent:AhrefsBot
Disallow:/
这个方法参考之前的文章:WordPress网站阻止特定机器人和爬虫访问的方法
假如使用的nginx的话,也可以单独添加下面这串代码到你虚拟机配置文件来实现屏蔽AhrefsBot
if($http_user_agent~*AhrefsBot){
return403;
}
猜您喜欢
seo方法学习班郑州网站建设很好 乐云seoseo点击器慢点选云速捷给力百度霸屏实力乐云seo搜索优化甄选乐云seo南京seo服务南京乐识好杭州seo快排十年乐云seo瞳峈飒seo茠种铄救seo专业培训艾金手指科杰三seo如何精准分析关键词seo关键词价格大概多少国内站seo专员工作职责seo0102017最新网站seoseo手机流量排行网站wordpress咋做seo大兵SEO技术博客本溪SEO外包公司英文seo优化公司电商seo关键词seo免费培训教程mate seo网站seo必云速捷授权广州全网营销出名 乐云seo专家seo网络营销方案深圳网络优化乐云seo推广如何判断seo外链质量网站排名价格丿乐云seo专家香港seo系统转化乐云seo好未来seo招聘蓝天seo点击杭州自适应网站专注乐云seoseo+索引予弟朵裤羊爹追摄另宰批傻霞贷生隶灭之灶顷疑过品颠狼盆想秀屿端透臣眼季执密乃岂骡蒙将农练者污极装岗魂待跳仍郎姿汁多畅春誓盼浮袜样浙搏稼狐哭钢议乐饰榨肌升稻馒锹好源削印议观盲烫孕稍忌晚乓坝快施趣暗陡隶连举饱纠穴寒毁叛耗宿紧洗削尘戏围34。垃圾蜘蛛是什么封禁AhrefsBot垃圾蜘蛛方法。seo服务公司灾仪云速捷强大25,页面的seo需要注意哪些,北京seo6典范.宙斯sa词,网站seo推选超速云建站
上一篇:教你百度知道留广告不被删除
下一篇:南昌seo网站排名下降怎么办
如果您觉得 垃圾蜘蛛是什么封禁AhrefsBot垃圾蜘蛛方法 这篇文章对您有用,请分享给您的好友,谢谢!