二维码防伪系统

新闻中心

各种活动实时推动

Nginx环境屏蔽网络爬虫YisouSpider

发布时间:2024-10-29 点击次数:238
Nginx如何禁止空UA和特定User Agent垃圾爬虫访问网站,网站目录以及特定类型的文件宝塔面板搭建的网站查看网站日志时:我们会经常发现一些空UA采集,或者垃圾爬虫高频的访问,导致CPU消耗过高,其实通过User Agent的特征,我们可以禁止那些恶意的无效的访问,Nginx环境如何禁止特定爬行工具、空UA、特定UA访问我们的网站:下面的四项都是nginx配置在server内1、禁止指定UA及UA为空的访问if ($http_user_agent ~ "FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {     return 403;}2、禁止非GET|HEAD|POST方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) {    return 403;}3、禁止Scrapy等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {     return 403;}4、此方法最简单粗暴,直接网站 Nginx 配置文件里面server内添加以下的规则,针对服务器上经常被扫描的文件后缀,直接返回404,资源下载网站请根据情况调整规则    # 禁止访问指定文件    location ~ .(zip|rar|sql|tar|gz|7z)$ {        return 404;    }宝塔面板的Nginx环境,登录宝塔面板后台 - 网站 -网站设置 - 配置文件 里面,添加你需要的代码:

5、在网站根目录里建立robots.txt,添加如下内容

User-agent: YisouSpiderDisallow: / 6、禁止某个目录执行脚本【单nginx下有效,如使用了nginx+apache组合,php交给apache处理,需要通过.htaccess进行限制】,添加到location ~ .php  之前    location ~* ^/(uploads|templets|data)/.*.(php|php5)$ {        return 444;    }7、屏蔽某个IP或IP段    #屏蔽192.168.5.23这个IP    deny 192.168.5.23;    #屏蔽192.168.5.* 这个段    deny 192.168.5.0/24;8、此种方法比较暴力,就是以彼之道,还施彼身,利用伪静态规则进行跳转下载,比如:扫描根目录下的 /web.rar,那么就会触发规则跳转到大文件下载地址。打开网站 Nginx 配置文件,将规则加入 server 内,示例:server {    ...    # 专治扫描户    rewrite .rar/?$ http://speedtest.tele2.net/100GB.zip permanent;    rewrite .tar/?$ http://speedtest.tele2.net/100GB.zip permanent;    rewrite .zip/?$ http://speedtest.tele2.net/100GB.zip permanent;    rewrite .sql/?$ http://speedtest.tele2.net/100GB.zip permanent;    rewrite .gz/?$ http://speedtest.tele2.net/100GB.zip permanent;    rewrite .7z/?$ http://speedtest.tele2.net/100GB.zip permanent;    # 或者使用    rewrite .(rar|zip|tar|sql|gz|7z)/?$ http://speedtest.tele2.net/100GB.zip permanent;    ...}如果觉得 100GB 响应时间有点长,那么可以替换小文件下载地址:10G:新加坡: http://lg-sin.fdcservers.net/10GBtest.zip日本: http://lg-tok.fdcservers.net/10GBtest.zip香港: http://lg-hkg.fdcservers.net/10GBtest.zip1G:日本:http://hnd-jp-ping.vultr.com/vultr.com.1000MB.bin新加坡:https://sgp-ping.vultr.com/vultr.com.1000MB.bin如何测试效果?Linux的vps,比如Centos7 使用Xshell软件连接上VPS。(如何使用Xshell通过SSH连接管理VPS)使用使用下面的命令测试一下就行:模拟UA为空的抓取:curl -I -A '' https://www.78moban.com模拟垃圾爬虫AhrefsBot抓取:curl -I -A 'AhrefsBot' https://www.78moban.com模拟AhrefsBot访问返回:HTTP/1.1 403 Forbidden 则设置生效访问被拦截!模拟百度蜘蛛的抓取:curl -I -A 'Baiduspider' https://www.78moban.com模拟百度蜘蛛访问则成功返回:HTTP/1.1 200 OK表示百度的爬虫是正常可以访问你的网站。附一部分垃圾垃圾爬虫和扫描FeedDemon 内容采集BOT/0.1 sql注入CrawlDaddy sql注入Java 内容采集Jullo 内容采集Feedly 内容采集UniversalFeedParser 内容采集ApacheBench cc攻击器Swiftbot 无用爬虫YandexBot 无用爬虫AhrefsBot 无用爬虫YisouSpider 无用爬虫jikeSpider 无用爬虫MJ12bot 无用爬虫ZmEu phpmyadmin 漏洞扫描WinHttp 采集cc攻击EasouSpider 无用爬虫HttpClient tcp攻击Microsoft URL Control 扫描YYSpider 无用爬虫jaunty wordpress爆破扫描器oBot 无用爬虫Python-urllib 内容采集Indy Library 扫描FlightDeckReports Bot 无用爬虫Linguee Bot 无用爬虫

copy © 2025 星澜网络 All Rights Reserved

备案号:鲁ICP备2023015769号