草庐IT

MultipleOutputFormats

全部标签

Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat

我正在使用Hadoop运行ETL作业,我需要将经过转换的有效数据输出到HBase,并将该数据的外部索引输出到MySQL。我最初的想法是,我可以使用MultipleOutputFormats通过HFileOutputFormat(键是Text,值是ProtobufWritable)和TextOutputFormat的索引(键是Text,值是Text)导出转换后的数据。平均大小的作业(我需要同时运行多个作业的能力)的输入记录数约为7亿。我想知道A)就效率和复杂性而言,这似乎是一种合理的方法,以及B)如果可能的话,如何使用CDH3发行版的API来实现这一点。 最佳