maxcompute_草庐IT

使用Data Transfer Hub迁移MaxCompute数据至S3数据湖实践

一．概述随着对象存储使用得到广泛普及，越来越多的企业客户从其他云对象存储迁移到AmazonS3时对实时性，安全性，稳定性，易用性和同步效率有不同的要求。其次，数据存储如关系型/非关系型数据库，Elasticsearch，Redis等皆可通过导出文件或快照进行数据导入，使数据迁移变为基于文件的迁移。本文以迁移阿里MaxCompute数据为示例，通过阿里OSS对象存储实时事件触发，部署DataTransferHub以将阿里MaxCompute数据导入到AmazonS3数据湖。除了上述场景外，本文也同样适用于普通对象存储文件迁移。阅读本文，您将会了解到：如何使用DataTransferHub如何配置

Hive/MaxCompute SQL性能优化(三)：数据倾斜优化实战

SQL性能优化系列：Hive/MaxComputeSQL性能优化(一)：什么是数据倾斜Hive/MaxComputeSQL性能优化(二)：如何定位数据倾斜前面介绍了如何定位数据倾斜，本文介绍如果遇到各种数据倾斜的情况该怎样优化代码。Map长尾优化一、Map读取数据量不均匀小文件多，数据分布不均匀，使用下面的参数设置小文件合并，让每个mapper实例读取数据量大致相同。setodps.sql.mapper.merge.limit.size=64;--小于阈值的文件将会合并，默认64mbsetodps.sql.mapper.split.size=256;--map最大输入数据量，默认256mb，影