草庐IT

大数据领域新星,带你了解DuckDB

随着大数据领域的不断发展,新的数据处理和分析工具不断涌现。在这些工具中,DuckDB是个亮点,它是一个开源的数据库管理系统,使用SQL作为查询语言,旨在提供内存中分析的高性能解决方案。DuckDB还支持与pandasDataFrame的无缝集成,可以便捷地与pandas等工具进行数据处理和分析。因此,DuckDB是一个非常值得关注和探索的数据库管理系统。1DuckDB的崛起DuckDB是个正在快速崛起非常受欢迎的内置SQL分析引擎。统计数据如下:每月在PyPI上有170万次下载在GitHub上有13,800个星标,在短短几年内已与Postgres达到了同样的欢迎程度DuckDB与Postgre

[​DuckDB] 多核算子并行的源码解析

DuckDB是近年来颇受关注的OLAP数据库,号称是OLAP领域的SQLite,以精巧简单,性能优异而著称。笔者前段时间在调研Doris的Pipeline的算子并行方案,而DuckDB基于论文《Morsel-DrivenParallelism:ANUMA-AwareQueryEvaluationFrameworkfortheMany-CoreAge》实现SQL算子的高效并行化的Pipeline执行引擎,所以笔者花了一些时间进行了学习和总结,这里结合了MarkRaasveldt进行的分享和原始代码来一一剖析DuckDB在执行算子并行上的具体实现。1.基础知识问题1:并行task的数目由什么决定?

[​DuckDB] 多核算子并行的源码解析

DuckDB是近年来颇受关注的OLAP数据库,号称是OLAP领域的SQLite,以精巧简单,性能优异而著称。笔者前段时间在调研Doris的Pipeline的算子并行方案,而DuckDB基于论文《Morsel-DrivenParallelism:ANUMA-AwareQueryEvaluationFrameworkfortheMany-CoreAge》实现SQL算子的高效并行化的Pipeline执行引擎,所以笔者花了一些时间进行了学习和总结,这里结合了MarkRaasveldt进行的分享和原始代码来一一剖析DuckDB在执行算子并行上的具体实现。1.基础知识问题1:并行task的数目由什么决定?