草庐IT

Streaming

全部标签

hadoop - 如何在 Hadoop Streaming 作业上设置 Priority\Pool?

如何设置Hadoop流作业的优先级\池?它可能是一个命令行jobconf参数(例如-jobconfsomething=pool.name),但我无法在网上找到任何关于此的文档... 最佳答案 -jobconfmapred.job.queue.name=mapred.job.priority= 关于hadoop-如何在HadoopStreaming作业上设置Priority\Pool?,我们在StackOverflow上找到一个类似的问题: https://st

Hadoop Streaming 和多个 reducer 步骤,每个步骤之间没有映射器

我正在解决如何多次排序我的数据而不必每次都返回映射器的问题。我想设置:mapper1-->reducer1--->reducer2--->reducer3我想让reducer1输出(键、数据),然后让它直接进入reducer2...这可能吗?我从故障排除中了解到您可以链接作业,但这需要每个步骤都有一个映射器吗?每当我尝试在没有映射器的情况下运行时,它都会以错误结束。如果我可以根据需要从reducer1输出它,那么为每个步骤运行映射器似乎会浪费时间/资源。想法? 最佳答案 简而言之,如果您使用的是Java,那么您需要ChainRedu

Python Hadoop 流错误 "ERROR streaming.StreamJob: Job not Successful!"和堆栈跟踪 : ExitCodeException exitCode=134

我正在尝试使用HadoopStreaming在Hadoop集群上运行python脚本以进行情绪分析。我在本地机器上运行的相同脚本正常运行并提供输出。要在本地机器上运行,我使用此命令。$cat/home/MB/analytics/Data/input/*|./new_mapper.py为了在hadoop集群上运行,我使用以下命令$hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.5.0-mr1-cdh5.2.0.jar-mapper"python$PWD/new_mapper.py"-

hadoop - 背压属性在 Spark Streaming 中如何工作?

我有一个接收单个事件(字符串)的CustomReceiver。在spark应用程序运行时使用接收到的单个事件从nosql读取数据并应用转换。当观察到每个批处理的处理时间大于批处理间隔我设置了这个属性。spark.streaming.backpressure.enabled=true在此之后,我希望CustomReceiver在批处理时间超过批处理窗口时不会触发和接收事件,但这种情况并没有发生,并且仍在添加积压的批处理。我在这里遗漏了什么吗? 最佳答案 尝试检查this和this文章。 关

java - Hadoop Streaming 工作与常规工作?

HadoopStreaming作业和常规Java作业有什么区别。与后者相比,使用Hadoop流式传输有什么优势吗?还有一件事,我正在使用ma​​preduceAPI(即新API),我听说流式传输仅适用于已弃用的ma​​predAPI。是吗? 最佳答案 Hadoop流式处理对于开发人员不具备太多Java知识并且可以更快地使用任何脚本语言编写Mapper/Reducer的情况非常有利。与自定义jar作业相比,流式作业还会有启动脚本(Python/Ruby/Perl)VM的额外开销。这会导致大量的进程间通信,导致大多数情况下作业的效率降低

streaming - 如何设置 Hadoop Streaming 作业生成的输出文件的 block 大小?

看起来这应该很简单;我的集群上有一组文件,集群默认block大小为128MB。我有一个处理它们的流作业,我希望流作业创建的输出文件使用不同的block大小,特别是16MB。我认为以下方法可行:$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/contrib/streaming/hadoop-0.20.1+152-streaming.jar-Ddfs.block.size=16777216-Dmapred.job.name='LogProcessor'-Dmapred.reduce.tasks=5-Dmapred.output.compress=true-Dm

Python Streaming : how to reduce to multiple outputs?(尽管使用 Java 是可能的)

我读了HadoopinAction并发现在Java中使用MultipleOutputFormat和MultipleOutputs类,我们可以将数据减少到多个文件,但我不确定如何实现使用Python流式处理也是一样。例如:/out1/part-0000mapper->reducer\out2/part-0000如果有人知道,听说过,做过类似的事情,请告诉我 最佳答案 DumboFeathers,一组与Dumbo一起使用的java类(一个python库,可以轻松为hadoop编写高效的p​​ythonM/R程序),在其outputcla

hadoop - 您如何设置具有不同批处理持续时间的多个 Spark Streaming 作业?

我们正处于转换大型企业当前数据架构的开始阶段,我目前正在构建一个SparkStreamingETL框架,我们将在其中将所有源连接到目的地(源/目的地可以是Kafka主题、Flume、HDFS等)通过转换。这看起来像:SparkStreamingEtlManager.addEtl(源、转换*、目标)SparkStreamingEtlManager.streamEtl()streamingContext.start()假设是,因为我们应该只有一个SparkContext,所以我们将在一个应用程序/jar中部署所有ETL管道。问题在于batchDuration是上下文本身的属性,而不是Rec

hadoop - 如何将 Hadoop Streaming 与 LZO 压缩的序列文件一起使用?

我正在尝试使用Amazon的ElasticMapReduce来处理Googlengrams数据集。在http://aws.amazon.com/datasets/8172056142375670处有一个公共(public)数据集,我想使用Hadoop流。对于输入文件,它表示“我们将数据集存储在AmazonS3中的单个对象中。该文件采用block级LZO压缩的序列文件格式。序列文件键是数据集的行号,存储为LongWritable,值是存储为TextWritable的原始数据。”我需要做什么才能使用HadoopStreaming处理这些输入文件?我尝试在我的参数中添加一个额外的“-inpu

java - 如何找到 JAR :/home/hadoop/contrib/streaming/hadoop-streaming. jar

我正在练习一个关于AmazonEMR的多视角视频教程。我被卡住了,因为我收到此错误而无法继续不是有效的JAR:/home/hadoop/contrib/streaming/hadoop-streaming.jar请注意教程是旧的,它使用的是旧的Emr版本。我使用的是最新版本,这是个问题吗?我采取的步骤是在腻子中输入凭据之后1)Hadoop2)mkdirstreamingCode`3)wget-o./streamingCode/wordSplitter.pys3://elasticmapreduce/samples/wordcount/wordSplitter.py4)hadoopjar