草庐IT

fastparquet

全部标签

python - 使用 Python 在 Parquet 中嵌套数据

我有一个文件,每行一个JSON。这是一个示例:{"product":{"id":"abcdef","price":19.99,"specs":{"voltage":"110v","color":"white"}},"user":"DanielSevero"}我想创建一个包含以下列的Parquet文件:product.id,product.price,product.specs.voltage,product.specs.color,user我知道parquet有一个使用Dremel算法的嵌套编码,但我无法在python中使用它(不知道为什么)。我是pandas和dask的重度用户,所以

python - fastparquet 和 pyarrow 之间的比较?

经过一番搜索后,我未能找到fastparquet和pyarrow的彻底比较。我找到了这个博客post(速度的基本比较)。和一个githubdiscussion声称使用fastparquet创建的文件不支持AWS-athena(顺便说一句,情况仍然如此吗?)我什么时候/为什么要使用一个而不是另一个?主要优点和缺点是什么?我的具体用例是使用dask处理数据将其写入s3,然后使用AWS-athena读取/分析它。 最佳答案 我使用fastparquet和pyarrow将protobuf数据转换为parquet,并使用Athena在S3中查