草庐IT

大数据计算技术秘史(上篇)

在之前的文章《2024年,一个大数据从业者决定……》《存储技术背后的那些事儿》中,我们粗略地回顾了大数据领域的存储技术。在解决了「数据怎么存」之后,下一步就是解决「数据怎么用」的问题。其实在大数据技术兴起之前,对于用户来讲并没有存储和计算的区分,都是用一套数据库或数据仓库的产品来解决问题。而在数据量爆炸性增长后,情况就变得不一样了。单机系统无法存储如此之多的数据,先是过渡到了分库分表这类伪分布式技术,又到了Hadoop时代基于分布式文件系统的方案,后来又到了数据库基于一致性协议的分布式架构,最终演进为现在的存算分离的架构。最近十几年,DataInfra领域的计算技术以及相关公司层出不穷,最终要