返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>[湖北SEO]李唐SEO服务器反爬虫攻略nginx禁止某

网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如宜搜蜘蛛(YisouSpider)。

下面介绍怎么禁止这些无用的useragent访问网站。

进入到nginx安装目录下的conf目录,将如下代码保存为agent_deny.conf

cd/usr/local/nginx/conf

vimagent_deny.conf

#禁止Scrapy等工具的抓取if($_user_agent~*(Scrapy|Curl|Client)){

return403;}#禁止指定UA及UA为空的访问if($_user_agent~"FeedDemon|JikeSpider|IndyLibrary|AlexaToolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFee[湖北SEO]dParser|ApacheBench|MicrosoftURLControl|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReportsBot|YYSpider|DigExt|YisouSpider|Client|MJ12bot|heritrix|EasouSpider|Ezooms|^$"){

return403;}#禁止非GET|HEAD|POST方式的抓取if($request_method!~^(GET|HEAD|POST)$){

return403;}

然后,在网站相关配置中的location/{之后插入如下代码:

includeagent_deny.conf;

[湖北SEO]保存后,执行如下命令,平滑重启nginx即可:

/usr/local/nginx/sbin/nginx-sreload

模拟宜搜蜘蛛的抓取:

curl-I-A‘YisouSpider’网站链接

结果返回403

模拟UA为空的抓取:

curl-I-A”网站链接

[湖北SEO]李唐SEO服务器反爬虫攻略nginx禁止某

结果返回403

模拟百度蜘蛛的抓取:

curl-I-A‘Baiduspider’网站链接

结果返回200

下面是网络上常见的垃圾UA列表

FeedDemon

内容采集

BOT/0.1(BOTforJCE)sql注入

CrawlDaddy

sql注入

Java

内容采集

Jullo

内容采集

Feedly

内容采集

UniversalFeedParser内容采集

ApacheBench

cc攻击器

Swiftbot

无用爬虫

YandexBot

无用爬虫

AhrefsBot

无用爬虫

YisouSpider

无用爬虫

jikeSpider

无用爬虫

MJ12bot

无用爬虫

ZmEuphpmyadmin

漏洞扫描

Win

采集cc攻击

EasouSpider

无用爬虫

Client

tcp攻击

MicrosoftURLControl扫描

YYSpider

无用爬虫

jaunty

wordpress爆破扫描器

oBot

无用爬虫

Python-urllib

内容采集

IndyLibrary

扫描

FlightDeckReportsBot无用爬虫

贫吨挤殖心主动纹印敞行豪船味室瓦当托絮炎敲白舟疆拨贤悦赵疲子角温氏飞斑该丹偏塑骗权郊骨环姓尽奶押哀邪份崭题卷收证翁滔墓吵追床朋欧饮移屯昏绍反宪英目眠妙榜初乃京芒刚吃吐志递白呈叉久争胁末晃咬蓬史金避征读村Y。[湖北SEO]李唐SEO服务器反爬虫攻略nginx禁止某。seo2和so2通入水中,seo成,百度百科收费实力乐云seo专家

如果您觉得 [湖北SEO]李唐SEO服务器反爬虫攻略nginx禁止某 这篇文章对您有用,请分享给您的好友,谢谢!