网站访问量pv统计-排除爬虫

时间:2020-08-28

如果你想通过nginx访问日志查询自己的页面访问情况,可是现在的网站访问量有挺大的水分,很多是爬虫爬出来的,不能简单统计nginx的accesslog来看真实用户的访问量,为了搜索引擎能抓取到你的网站,又不能简单通过robots.txt把所有爬虫禁用,所以只能把爬虫的部分剔除掉,下面就是我使用的屏蔽爬虫使用的命令,当然这些不全,只是列出了部分在ua中表明自己身份的爬虫,对于没有表明身份的这里就不介绍了,不过这样也能过滤掉大部分(85%)的爬虫访问记录。如果你使用下面的命令的话可能需要根据你的日志格式做适当的调整


[root@ nginx]#  cat /var/log/nginx/access.log  | grep "\"www.pp1pp.com"   | grep -iv ".gif\|.jpg\|.ico\|.css\|.txt\|.js\|.php\|.png" | grep -iv "spider\|AhrefsBot\|www.google.com/bot.html\|BLEXBot\|ZoominfoBot\|PetalBot\|SemrushBot\|Applebot\|360Spider\|mj12bot\|Nimbostratus-Bot\|YandexBot\|YisouSpider\|Mail.RU_Bot\|MegaIndex.ru" 


对于没有在ua中表明身份的,就只能通过ip来屏蔽了,比如我发现的几个ip

123.165.136.216

【推荐】 Beats 入门实战(2)--FileBeat 介绍
【推荐】 30分钟学懂K8s--k8s教程
【推荐】 如何搭建一个属于自己的直播平台?
【推荐】 高级架构师实战:如何用最小的代价完成爬虫需求