草庐IT

stream_resolve_include_path

全部标签

hadoop - Hadoop Streaming 的向后兼容性

AFAK,HadoopStreaming只支持文本输入,这意味着数据是按行组织的。但是如果我们想要向后兼容,映射器代码将变得困惑,在用C++编写的同一个映射器程序中支持不同版本的日志行。之前考虑过avro或者protobuf,但是streaming模式好像不支持,是这样吗?还有其他解决办法吗? 最佳答案 其他输入/输出格式也可以是used以及Hadoop流。Avrosupport已为HadoopStreaming添加。参见AVRO-808&AVRO-830.还有这个Thread可能会有用。我找不到ProtoBuf的InputForm

Hadoop 和 JZMQ - java.library.path 中没有 jzmq

我正在尝试让JZMQ代码在Hadoop集群上的一个节点上运行。我在该节点上的-/usr/local/lib目录下安装了必要的nativejmzq库文件。这是列表-libjzmq.alibjzmq.lalibjzmq.solibjzmq.so.0libjzmq.so.0.0.0libzmq.alibzmq.lalibzmq.solibzmq.so.3libzmq.so.3.0.0pkgconfig在我的shell脚本中,如果我运行下面的Java命令,它绝对可以正常工作-java-Djava.library.path=/usr/local/lib-classpathclass/:lib/:

apache-spark - Spark Streaming to Hive,每个分区的小文件太多

我有一个批处理间隔为2分钟(可配置)的Spark流作业。此作业从Kafka主题读取并创建数据集并在其上应用模式并将这些记录插入到Hive表中。Spark作业在Hive分区中每个批处理间隔创建一个文件,如下所示:dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName);现在传入的数据不是那么大,如果我将批处理持续时间增加到10分钟左右,那么即使我最终也可能只获得2-3mb的数据,这远小于block大小。这是SparkStreaming中的预期行为。我正在寻找有效的方法来进行后处理以合并所有

hadoop - Spark : Saving RDD in an already existing path in HDFS

我可以使用saveAsTextFile方法将RDD输出保存到HDFS。如果文件路径已经存在,此方法将抛出异常。我有一个用例,我需要将RDDS保存在HDFS中已有的文件路径中。有没有一种方法可以将新的RDD数据附加到同一路径中已经存在的数据中? 最佳答案 自Spark1.6以来可用的一种可能的解决方案是使用具有text格式和append模式的DataFrames:valoutputPath:String=???rdd.map(_.toString).toDF.write.mode("append").text(outputPath)

java - 带有 datafu : Cannot resolve UDF's 的 apache PIG

我正在尝试从这里开始快速入门:http://datafu.incubator.apache.org/docs/datafu/getting-started.html我几乎尝试了所有方法,但我确定这一定是我的错。我已经试过了:导出PIG_HOME、CLASSPATH、PIG_CLASSPATH使用-cpdatafu-pig-incubating-1.3.0.jar启动pig在本地和hdfs中注册datafu-pig-incubating-1.3.0.jar=>都成功(至少没有显示错误)没有任何帮助在pig身上试试这个:registerdatafu-pig-incubating-1.3.0

hadoop - EMR : how to include semicolon in regex argument of EXTRACT function 上的 pig

我正在处理Pig中的一些数据,其中包括感兴趣的字符串,可以选择用分号分隔并以随机顺序排列,例如test=12345;foo=bartest=12345foo=bar;test=12345以下代码应提取测试“键”的字符串值:blah=FOREACHdataGENERATEFLATTEN(EXTRACT(str_of_interest,'test=(\\S+);?'))AS(test:chararray);但是,在运行代码时,我遇到了以下错误:mismatchedcharacter''expecting'''2013-04-1604:46:05,245[main]ERRORorg.apac

用于 Flume 接收器文件的 Hadoop Streaming MapReduce - FileNotFoundException

我遇到以下异常:java.io.FileNotFoundException:Filedoesnotexist:/log1/20131025/2013102509_at1.1382659200021.tmpatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.fetchLocatedBlocks(DFSClient.java:2006)atorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1975)...当MR作业正在运行时。Flume将文件名从xx

使用 Hadoop Streaming 进行 avro 转换的 python 脚本

我有10GB的输入文件,我正在尝试使用pythonhadoop流将其转换为avro,工作成功但我无法使用avro阅读器读取输出。它给出“utf8”编解码器无法解码位置13924中的字节0xb4:无效的起始字节。这里的问题是我将标准输出用于hadoop流的映射器输出,如果我使用文件名并在本地使用脚本,则avro输出是可读的。任何想法,如何解决这个问题?我认为问题在于处理流媒体中的键/值....hadoopjar/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar

r - Hadoop streaming reducer 到 mapper

我正在用R编写Hadoop流作业,我遇到了一个相当奇怪的情况,我找不到任何文档。我想运行一个直接传递给另一个映射器的缩减作业(不需要映射器)。是否可以在没有初始映射器的情况下直接在缩减作业之后堆叠映射作业?如果我编写一个身份映射器将输出传递到我的reduce作业,我能否将reduce输出传递给另一个映射器,如果可以,如何传递?我当前的代码是:$HADOOP_HOME/bin/hadoopjar/opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoo

java - 如何使用 Spark Streaming Java API 将 Twitter 推文写入 HDFS

SparkConfconf=newSparkConf().setMaster("local[2]").setAppName("SparkTwitterHelloWorldExample");JavaStreamingContextjssc=newJavaStreamingContext(conf,newDuration(60000));System.setProperty("twitter4j.oauth.consumerKey",consumerKey);System.setProperty("twitter4j.oauth.consumerSecret",consumerSecre