草庐IT

stream_readable

全部标签

python - Hadoop Streaming 命令失败并出现 Python 错误

我是Ubuntu、Hadoop和DFS的新手,但我已经按照Michael-Noll.com上发布的说明在我的本地ubuntu机器上安装了一个单节点hadoop实例:http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/#copy-local-example-data-to-hdfshttp://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/我目前一直在Had

java - Spark Streaming : Using PairRDD. saveAsNewHadoopDataset函数保存数据到HBase

我想在HBase数据库中保存Twitter流。我现在拥有的是用于接收和转换数据的Saprk应用程序。但是我不知道如何将我的TwitterStream保存到HBase中?我发现唯一有用的是PairRDD.saveAsNewAPIHadoopDataset(conf)方法。但是我应该如何使用它,我必须进行哪些配置才能将RDD数据保存到我的HBase表中?我唯一找到的是HBase客户端库,它可以通过Put对象将数据插入到表中。但这不是Spark程序内部的解决方案,是吗(有必要遍历RDD内的所有项目!!)?谁能举个JAVA的例子?我的主要问题似乎是org.apache.hadoop.conf.

python - Hadoop 2.7.3 Streaming Jar 无效

我是Hadoop的新手,正在尝试使用this运行一个简单的程序.我已经将本地示例数据复制到hdfs,但是在我的mapreduce作业期间,当我按照官方apache文档运行此命令时hadoopjarhadoop-streaming-2.7.3.jar\-input/user/hduser/gutenberg/*\-output/user/hduser/gutenberg-output\-mapper/home/hduser/mapper.py\-reducer/home/hduser/reducer.py我收到这个错误NotavalidJAR:/usr/lib/hadoop-stream

streaming - Hadoop 流最大行长度

我正在为AmazonElasticMapReduce开发Hadoop流式处理工作流,它涉及序列化一些二进制对象并将它们流式传输到Hadoop。Hadoop是否有流式输入的最大行长度?我开始只是用越来越大的线条进行测试,但我想我会先在这里问。 最佳答案 行的长度似乎没有强加的限制。自问这个问题以来,我一直在编写序列化二进制对象的代码,将它们编码为base64,然后将它们放入流中进行处理。结果,有些行很长。Hadoop毫无怨言地咀嚼着。 关于streaming-Hadoop流最大行长度,我们

sorting - Hadoop MapReduce Streaming 对多列进行排序

我有这样的mapreduce输入:key1\t4.1\tmore...key1\t10.3\tmore...key2\t6.9\tmore...key2\t3\tmore...我想按第一列排序,然后按第二列排序(反向数字)。有没有办法实现这个StreamingMapReduce?我目前的尝试是这样的:hadoopjarhadoop-streaming-1.2.1.jar-Dnum.key.fields.for.partition=1-Dmapred.text.key.comparator.options='-k1,2rn'-Dmapred.output.key.comparator.c

hadoop - 如何在 Hadoop Streaming 作业上设置 Priority\Pool?

如何设置Hadoop流作业的优先级\池?它可能是一个命令行jobconf参数(例如-jobconfsomething=pool.name),但我无法在网上找到任何关于此的文档... 最佳答案 -jobconfmapred.job.queue.name=mapred.job.priority= 关于hadoop-如何在HadoopStreaming作业上设置Priority\Pool?,我们在StackOverflow上找到一个类似的问题: https://st

Hadoop Streaming 和多个 reducer 步骤,每个步骤之间没有映射器

我正在解决如何多次排序我的数据而不必每次都返回映射器的问题。我想设置:mapper1-->reducer1--->reducer2--->reducer3我想让reducer1输出(键、数据),然后让它直接进入reducer2...这可能吗?我从故障排除中了解到您可以链接作业,但这需要每个步骤都有一个映射器吗?每当我尝试在没有映射器的情况下运行时,它都会以错误结束。如果我可以根据需要从reducer1输出它,那么为每个步骤运行映射器似乎会浪费时间/资源。想法? 最佳答案 简而言之,如果您使用的是Java,那么您需要ChainRedu

java - 弹性 map 减少超时java.io.IOException : Unexpected end of stream

我正在运行MAPreduce作业(ElasticmapreduceEMR)服务。该作业适用于小型数据集,但对于大型数据集(文件大小400MB)存在以下异常使用相同的大输入文件运行另一个作业工作正常但是。为什么这样呢?Error:java.io.IOException:Unexpectedendofstreampos=19520590contentLength=458603265atorg.apache.hadoop.fs.s3native.NativeS3FileSystem$NativeS3FsInputStream.read(NativeS3FileSystem.java:313)

Python Hadoop 流错误 "ERROR streaming.StreamJob: Job not Successful!"和堆栈跟踪 : ExitCodeException exitCode=134

我正在尝试使用HadoopStreaming在Hadoop集群上运行python脚本以进行情绪分析。我在本地机器上运行的相同脚本正常运行并提供输出。要在本地机器上运行,我使用此命令。$cat/home/MB/analytics/Data/input/*|./new_mapper.py为了在hadoop集群上运行,我使用以下命令$hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.5.0-mr1-cdh5.2.0.jar-mapper"python$PWD/new_mapper.py"-

hadoop - 背压属性在 Spark Streaming 中如何工作?

我有一个接收单个事件(字符串)的CustomReceiver。在spark应用程序运行时使用接收到的单个事件从nosql读取数据并应用转换。当观察到每个批处理的处理时间大于批处理间隔我设置了这个属性。spark.streaming.backpressure.enabled=true在此之后,我希望CustomReceiver在批处理时间超过批处理窗口时不会触发和接收事件,但这种情况并没有发生,并且仍在添加积压的批处理。我在这里遗漏了什么吗? 最佳答案 尝试检查this和this文章。 关