前言好久不见(鞠躬今年以来的主要工作方向之一就是部门内流批一体能力的建设与落地。虽然这个概念早已成为老生常谈,并且笔者现在还没什么fancy的成果(惭愧),但今天还是想随便写几句来聊聊。Why?考虑经典的LambdaArchitecture。这种架构的出现是历史必然,因为那时的流计算引擎以Storm为代表,而它们都无法提供Exactly-Once语义,所以任何一点小的扰动(延迟、网络问题、系统异常、etc.)就很可能导致实时数据失真。而以HiveonMapReduce为代表的批计算引擎和数据仓库组件早已成熟,因此能够提供准确的离线数据,并且还能为实时数据做出修正。LambdaArchitect