草庐IT

srappers

全部标签

node.js - 在我的网站上放慢流氓网络 srappers 并仍然使用 Varnish

想象一下,有一些爬虫在抓取我的网站。我怎样才能禁止它们并仍然将GoogleBots列入白名单?我想我可以找到谷歌机器人的ip范围,我正在考虑使用Redis来存储当天的所有访问,如果在短时间内我看到太多来自同一IP的请求->禁止。我的堆栈是ubuntu服务器、nodejs、expressjs。我看到的主要问题是这种检测是在Varnish之后进行的。所以Varnish缓存必须被禁用。有更好的主意或好的想法吗? 最佳答案 您可以使用VarnishACL[1],在apache中维护它可能会有点困难,但肯定会起作用:aclbad_boys{"