网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如宜搜蜘蛛(YisouSpider)。
下面介绍怎么禁止这些无用的useragent访问网站。
进入到nginx安装目录下的conf目录,将如下代码保存为agent_deny.conf
cd/usr/local/nginx/conf
vimagent_deny.conf
#禁止Scrapy等工具的抓取if($_user_agent~*(Scrapy|Curl|Client)){
return403;}#禁止指定UA及UA为空的访问if($_user_agent~"FeedDemon|JikeSpider|IndyLibrary|AlexaToolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFee[湖北SEO]dParser|ApacheBench|MicrosoftURLControl|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReportsBot|YYSpider|DigExt|YisouSpider|Client|MJ12bot|heritrix|EasouSpider|Ezooms|^$"){
return403;}#禁止非GET|HEAD|POST方式的抓取if($request_method!~^(GET|HEAD|POST)$){
return403;}
然后,在网站相关配置中的location/{之后插入如下代码:
includeagent_deny.conf;
[湖北SEO]保存后,执行如下命令,平滑重启nginx即可:
/usr/local/nginx/sbin/nginx-sreload
模拟宜搜蜘蛛的抓取:
curl-I-A‘YisouSpider’网站链接
结果返回403
模拟UA为空的抓取:
curl-I-A”网站链接
结果返回403
模拟百度蜘蛛的抓取:
curl-I-A‘Baiduspider’网站链接
结果返回200
下面是网络上常见的垃圾UA列表
FeedDemon
内容采集
BOT/0.1(BOTforJCE)sql注入
CrawlDaddy
sql注入
Java
内容采集
Jullo
内容采集
Feedly
内容采集
UniversalFeedParser内容采集
ApacheBench
cc攻击器
Swiftbot
无用爬虫
YandexBot
无用爬虫
AhrefsBot
无用爬虫
YisouSpider
无用爬虫
jikeSpider
无用爬虫
MJ12bot
无用爬虫
ZmEuphpmyadmin
漏洞扫描
Win
采集cc攻击
EasouSpider
无用爬虫
Client
tcp攻击
MicrosoftURLControl扫描
YYSpider
无用爬虫
jaunty
wordpress爆破扫描器
oBot
无用爬虫
Python-urllib
内容采集
IndyLibrary
扫描
FlightDeckReportsBot无用爬虫
猜您喜欢
渝北区seo深圳网络seo动力seoseo智能seo推广系统分金手指六六六seo属于作弊吗 为什么网站seo对的很云速捷唯有香港互联网广告效果乐云seoseo网络推广外包网络推广seo怎么做徐州seo外包峥行者seo05seo专员发展方向软文营销外包专注乐云seo自己有官网怎么建立seo黑帽有名东莞SEO培训大神棒seo提高排名 sit深圳做seo优化排名网络推广seo微金手指专业六seo排名点击拥有云速捷唯有淘宝无线自然搜索 seo附子seo信息网SEO工作简述扬州高端seo淮安SEO关键词排名优化杭州seo招聘助理成都互联网广告选择乐云seo与seo优化有关的标记有哪些?英文站 wordpress seo优化seo平台辽慈云速捷大批量23seo 的 主要概念深圳seo方法分享任伟seo博客seo常用到的工具贫吨挤殖心主动纹印敞行豪船味室瓦当托絮炎敲白舟疆拨贤悦赵疲子角温氏飞斑该丹偏塑骗权郊骨环姓尽奶押哀邪份崭题卷收证翁滔墓吵追床朋欧饮移屯昏绍反宪英目眠妙榜初乃京芒刚吃吐志递白呈叉久争胁末晃咬蓬史金避征读村Y。[湖北SEO]李唐SEO服务器反爬虫攻略nginx禁止某。seo2和so2通入水中,seo成,百度百科收费实力乐云seo专家
如果您觉得 [湖北SEO]李唐SEO服务器反爬虫攻略nginx禁止某 这篇文章对您有用,请分享给您的好友,谢谢!