草庐IT

hadoop - Spark - 连接 2 个 PairRDD 元素

你好,有一个包含2个元素的JavaRDDPair:("TypeA",List),("TypeB",List)我需要将2对组合成1对类型:("TypeA_B",List)我需要将2个列表合并为1个列表,其中每2个json(1个A类型和1个B类型)有一些我可以加入的公共(public)字段。考虑到类型A的列表明显小于另一个,并且连接应该是内部的,因此结果列表应该与类型A的列表一样小。最有效的方法是什么? 最佳答案 rdd.join(otherRdd)为您提供第一个rdd的内部连接。要使用它,您需要将两个RDD转换为PairRDD,该Pa

java - Spark Streaming : Using PairRDD. saveAsNewHadoopDataset函数保存数据到HBase

我想在HBase数据库中保存Twitter流。我现在拥有的是用于接收和转换数据的Saprk应用程序。但是我不知道如何将我的TwitterStream保存到HBase中?我发现唯一有用的是PairRDD.saveAsNewAPIHadoopDataset(conf)方法。但是我应该如何使用它,我必须进行哪些配置才能将RDD数据保存到我的HBase表中?我唯一找到的是HBase客户端库,它可以通过Put对象将数据插入到表中。但这不是Spark程序内部的解决方案,是吗(有必要遍历RDD内的所有项目!!)?谁能举个JAVA的例子?我的主要问题似乎是org.apache.hadoop.conf.