srappers_草庐IT

想象一下，有一些爬虫在抓取我的网站。我怎样才能禁止它们并仍然将GoogleBots列入白名单？我想我可以找到谷歌机器人的ip范围，我正在考虑使用Redis来存储当天的所有访问，如果在短时间内我看到太多来自同一IP的请求->禁止。我的堆栈是ubuntu服务器、nodejs、expressjs。我看到的主要问题是这种检测是在Varnish之后进行的。所以Varnish缓存必须被禁用。有更好的主意或好的想法吗？最佳答案您可以使用VarnishACL[1]，在apache中维护它可能会有点困难，但肯定会起作用:aclbad_boys{"