草庐IT

pipemapred

全部标签

python - Hadoop 流中损坏的 python 管道

我有一个大规模的日志处理问题,我必须在hadoop集群上运行。任务是将日志的每一行输入一个可执行的“cmd”,并检查结果以决定是否保留这行日志。由于“cmd”程序打开了一个非常大的字典,我无法为日志的每一行调用该程序。我想让它保持运行并向它提供所需的输入。我当前的解决方案使用python的子进程模块,代码如下:importsysfromsubprocessimportPopen,PIPEdefmain():pp=Popen('./bqc/bqc/bqc_tool./bqc/bqc/bqc_dict/./bqc/bqc/word_dict/flag',shell=True,stdin=P

r - 库中的错误(功能): there is no package called ‘functional’ - While running MR using rmr2

我正在尝试在单节点Hadoop集群中使用rmr2运行一个简单的MR程序。这里是设置的环境Ubuntu12.04(32位)R(Ubuntu自带2.14.1,所以更新到3.0.2)从here安装了最新的rmr2和rhdfs以及对应的依赖Hadoop1.2.1现在我正在尝试运行一个简单的MR程序作为Sys.setenv(HADOOP_HOME="/home/training/Installations/hadoop-1.2.1")Sys.setenv(HADOOP_CMD="/home/training/Installations/hadoop-1.2.1/bin/hadoop")libra

azure - pipemapred waitoutputthreads 子进程失败,代码为 255

我正在AzureHDInsight(Hadoop)上运行一个简单的Map/Reduce作业。映射器失败并出现以下错误(来自JobTracker日志)...2014-03-2716:42:50,330INFOorg.apache.hadoop.mapred.TaskInProgress:Errorfromattempt_201403262112_0004_m_000000_0:java.lang.RuntimeException:PipeMapRed.waitOutputThreads():subprocessfailedwithcode255atorg.apache.hadoop.st

python-3.x - 错误 : Python3. 4 -> java.lang.RuntimeException : PipeMapRed. waitOutputThreads():子进程失败,代码为 1

我在Hadoop上使用Pythonmrjob库时遇到问题。我搜索了这个错误,但我不知道解决方案。我做了chmod+xpythonFile,插入.py文件的顶部#!/usr/bin/envpython我的错误看起来像...(这么长)lim@slave04~/python$python3MovieRecommender.py-rhadoop--itemshdfs:///user/lim/u.datahdfs:///user/lim/u.item>test.txtNoconfigsfound;fallingbackonauto-configurationLookingforhadoopbin

hadoop - 获取异常 WARN org.apache.hadoop.streaming.PipeMapRed : java. io.IOException: Broken pipe

出于某些调试目的,我正在现有的工作R脚本中添加打印语句。print("Hello")我在使用Hadoop流式处理执行此代码时收到Brokenpipe异常。如果我再次删除此打印件,它会起作用,对我来说听起来很奇怪!在编辑Rscript时,我正在通过窗口gitbash使用vi。您能否提出解决方案。 最佳答案 如果您的Hadoop集群由Linux节点组成,并且您提交的脚本是在windows或windowgitbash中编辑的,它将无法运行并抛出误导性异常。只需使用vi或emacs在linux中编辑文件。或者使用do2unix命令将文件从d

hadoop - 如何解决 java.lang.RuntimeException : PipeMapRed. waitOutputThreads() : subprocess failed with code 2?

我正在尝试在Hadoop环境中执行NLTK。以下是我用于执行的命令。bin/hadoopjar$HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar-input/user/nltk/input/-output/user/nltk/output1/-file/home/hduser/softwares/NLTK/unsupervised_sentiment-master.zip-mapper/home/hduser/softwares/NLTK/unsupervised_sentiment-master/sentiment.py

python - 使用 hadoop 流和 mrjob 运行作业 : PipeMapRed. waitOutputThreads(): subprocess failed with code 1

嘿,我是大数据世界的新手。我遇到了这个教程http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/它详细描述了如何在本地和ElasticMapReduce上使用mrjob运行MapReduce作业。好吧,我正在尝试在我自己的Hadoopcluser上运行它。我使用以下命令运行该作业。pythondensity.pytiny.dat-rhadoop--hadoop-bin/usr/bin/hadoop>outputmusic这就是我得到的:HADOOP:Runningjob:job