草庐IT

UrlViewCount

全部标签

Flink实战,实时流量统计 TOPN访问URL

跟https://blog.51cto.com/mapengfei/2580330类似场景,来从Nginx、Apache等web服务器的日志中读取数据,实时统计出来访问热度最高的TOPN访问URL,并且要确保数据乱序的处理,lag等情况下,还要确认数据的准确性目标: 从log文件中读取数据(也可以参考上一篇从kakfa中),取http的method为get的请求,并且把静态文件访问过滤掉,进行实时统计 实现: 1、读取文件 2、做过滤,method=geturl不为静态信息 3、生成一个滑动窗口,大小10分钟,每次滑动5s,watermask5s(为了保险允许数据延迟,allowedLaten

Flink实战,实时流量统计 TOPN访问URL

跟https://blog.51cto.com/mapengfei/2580330类似场景,来从Nginx、Apache等web服务器的日志中读取数据,实时统计出来访问热度最高的TOPN访问URL,并且要确保数据乱序的处理,lag等情况下,还要确认数据的准确性目标: 从log文件中读取数据(也可以参考上一篇从kakfa中),取http的method为get的请求,并且把静态文件访问过滤掉,进行实时统计 实现: 1、读取文件 2、做过滤,method=geturl不为静态信息 3、生成一个滑动窗口,大小10分钟,每次滑动5s,watermask5s(为了保险允许数据延迟,allowedLaten