草庐IT

maxcompute

全部标签

使用Data Transfer Hub迁移MaxCompute数据至S3数据湖实践

一.概述随着对象存储使用得到广泛普及,越来越多的企业客户从其他云对象存储迁移到AmazonS3时对实时性,安全性,稳定性,易用性和同步效率有不同的要求。其次,数据存储如关系型/非关系型数据库,Elasticsearch,Redis等皆可通过导出文件或快照进行数据导入,使数据迁移变为基于文件的迁移。本文以迁移阿里MaxCompute数据为示例,通过阿里OSS对象存储实时事件触发,部署DataTransferHub以将阿里MaxCompute数据导入到AmazonS3数据湖。除了上述场景外,本文也同样适用于普通对象存储文件迁移。阅读本文,您将会了解到:如何使用DataTransferHub如何配置

Hive/MaxCompute SQL性能优化(三):数据倾斜优化实战

SQL性能优化系列:Hive/MaxComputeSQL性能优化(一):什么是数据倾斜Hive/MaxComputeSQL性能优化(二):如何定位数据倾斜前面介绍了如何定位数据倾斜,本文介绍如果遇到各种数据倾斜的情况该怎样优化代码。Map长尾优化一、Map读取数据量不均匀小文件多,数据分布不均匀,使用下面的参数设置小文件合并,让每个mapper实例读取数据量大致相同。setodps.sql.mapper.merge.limit.size=64;--小于阈值的文件将会合并,默认64mbsetodps.sql.mapper.split.size=256;--map最大输入数据量,默认256mb,影
12