草庐IT

stream_id

全部标签

hadoop - Hadoop Streaming 的向后兼容性

AFAK,HadoopStreaming只支持文本输入,这意味着数据是按行组织的。但是如果我们想要向后兼容,映射器代码将变得困惑,在用C++编写的同一个映射器程序中支持不同版本的日志行。之前考虑过avro或者protobuf,但是streaming模式好像不支持,是这样吗?还有其他解决办法吗? 最佳答案 其他输入/输出格式也可以是used以及Hadoop流。Avrosupport已为HadoopStreaming添加。参见AVRO-808&AVRO-830.还有这个Thread可能会有用。我找不到ProtoBuf的InputForm

apache-spark - Spark Streaming to Hive,每个分区的小文件太多

我有一个批处理间隔为2分钟(可配置)的Spark流作业。此作业从Kafka主题读取并创建数据集并在其上应用模式并将这些记录插入到Hive表中。Spark作业在Hive分区中每个批处理间隔创建一个文件,如下所示:dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName);现在传入的数据不是那么大,如果我将批处理持续时间增加到10分钟左右,那么即使我最终也可能只获得2-3mb的数据,这远小于block大小。这是SparkStreaming中的预期行为。我正在寻找有效的方法来进行后处理以合并所有

java - 生成唯一的客户 ID/在配置单元中插入唯一的行

我需要根据客户名称和地址将唯一行插入到配置单元表中。我们是否可以使用客户名称和地址生成独特的值(value)?我希望生成如下所示的unique_value列并选择具有不同unique_value的行。例如像下面我想生成unique_value列{customer_name}{address}{unique_value}奥马尔街1111瑞安斯特里222奥马尔街1111或任何其他方法也很受欢迎! 最佳答案 您可以尝试两件事。您可以尝试使用UUID,但这会为每一行生成一个唯一的ID。像这样的事情会做:selectreflect("java

mongodb - 如何将 _id 数据从 mongodb 加载到 Apache Pig

我是Hadoop和ApachePig的新手。我在mongodb中有一个名为用户的集合,具有以下结构。我想通过以下方式将_id加载到ApachePig中:B=LOAD'mongodb://localhost:27017/test.user'USINGcom.mongodb.hadoop.pig.MongoLoader('_id:chararray,firstName:chararray,email:chararray')AS(UID,NAME,EMAIL);但我无法加载它。名称和电子邮件已完美加载。我正在使用这些jar文件REGISTER//avro-1.7.5.jarREGISTER/

用于 Flume 接收器文件的 Hadoop Streaming MapReduce - FileNotFoundException

我遇到以下异常:java.io.FileNotFoundException:Filedoesnotexist:/log1/20131025/2013102509_at1.1382659200021.tmpatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.fetchLocatedBlocks(DFSClient.java:2006)atorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1975)...当MR作业正在运行时。Flume将文件名从xx

使用 Hadoop Streaming 进行 avro 转换的 python 脚本

我有10GB的输入文件,我正在尝试使用pythonhadoop流将其转换为avro,工作成功但我无法使用avro阅读器读取输出。它给出“utf8”编解码器无法解码位置13924中的字节0xb4:无效的起始字节。这里的问题是我将标准输出用于hadoop流的映射器输出,如果我使用文件名并在本地使用脚本,则avro输出是可读的。任何想法,如何解决这个问题?我认为问题在于处理流媒体中的键/值....hadoopjar/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar

r - Hadoop streaming reducer 到 mapper

我正在用R编写Hadoop流作业,我遇到了一个相当奇怪的情况,我找不到任何文档。我想运行一个直接传递给另一个映射器的缩减作业(不需要映射器)。是否可以在没有初始映射器的情况下直接在缩减作业之后堆叠映射作业?如果我编写一个身份映射器将输出传递到我的reduce作业,我能否将reduce输出传递给另一个映射器,如果可以,如何传递?我当前的代码是:$HADOOP_HOME/bin/hadoopjar/opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoo

java - 如何使用 Spark Streaming Java API 将 Twitter 推文写入 HDFS

SparkConfconf=newSparkConf().setMaster("local[2]").setAppName("SparkTwitterHelloWorldExample");JavaStreamingContextjssc=newJavaStreamingContext(conf,newDuration(60000));System.setProperty("twitter4j.oauth.consumerKey",consumerKey);System.setProperty("twitter4j.oauth.consumerSecret",consumerSecre

hadoop - 如何为查询结果添加一个整数唯一 ID - __efficiently__?

给定一个查询,select*from...(这可能是CTAS语句的一部分)目标是添加一个额外的列ID,其中ID是一个唯一的整数。select...asID,*from...附言ID不必是连续的(可能有间隙)ID可以是任意的(不必代表结果集中的特定顺序)row_number逻辑上解决了问题-selectrow_number()over()asID,*from...问题是,至少目前,全局row_number(没有partitionby)正在使用单个reducer(hive)/task(spark)实现。 最佳答案 hivesetmapr

hadoop - read data as "streaming fashion"是什么意思?

我正在阅读ApacheCrunchdocumentation我发现了以下句子:Dataisreadinfromthefilesysteminastreamingfashion,sothereisnorequirementforthecontentsofthePCollectiontofitinmemoryforittobereadintotheclientusingmaterialization.我想知道以流式方式从文件系统读取是什么意思,如果有人能告诉我与其他读取数据的方式有什么区别,我将不胜感激。我想说这个概念也适用于其他工具,例如Spark。 最佳答案