草庐IT

作业队

全部标签

hadoop - 色调步骤中的 Mapreduce 作业不清楚

我正在尝试在hue中运行mapreduce作业。我遵循了以下步骤:FillouttheEditNodeform1)Enterooziemrwfasthename,and"oozieMapReduceworkflow"asthedescription.2)NavigatetotheJARfilelocationanduploadtheJARfile.3)ClicktheAddPropertybuttonandaddeachofthesefourproperties:PropertyNameValuemapred.mapper.classorg.apache.oozie.example.S

hadoop - 如何收集 mapreduce 作业的输出?

我尝试用mapreduce编写一个简单的字数统计程序。我的mapreduce程序只将输出写入文件。但我不希望我的输出写入文件。我想收集该信息或输出(如java集合)以用于我的程序区域的其余部分。例如,如果我在配置单元上提交任何查询,它会返回一个结果集对象,但在内部我的查询将转换为mapreduce程序,并在完成作业后返回结果集对象。与其他mapreduce程序不同,它不会将结果写入文件系统。那么我如何收集输出或者如何在reducer或mapper中准备我自己的对象并在java程序的其他区域收集该对象?我不希望将输出写入文件。 最佳答案

java - 使用 MapReduce 作业的 HBase 批量删除

我正在尝试使用mapreduce作业从Hbase表中删除行。我收到以下错误。java.lang.ClassCastException:org.apache.hadoop.hbase.client.Deletecannotbecasttoorg.apache.hadoop.hbase.KeyValueatorg.apache.hadoop.hbase.mapreduce.HFileOutputFormat$1.write(HFileOutputFormat.java:124)atorg.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWr

r - 临时在 Hadoop 节点上安装 R 包用于流作业

我可以访问具有基础R(2.14.1)但没有在每个节点中安装额外包的Hadoop集群。我一直在编写基本的R映射器和缩减器流脚本来解决我没有额外包的事实。但是,我已经到了需要使用某些包(主要是rjson)作为脚本的一部分的地步。我没有集群的管理员权限,并且用户帐户受到相当限制。让集群管理员在每个节点上安装包不是一个选项(目前),并且集群没有外部互联网访问权限。我已将rjson_0.2.8.tar.gz源文件上传到我的网关节点。是否可以通过添加install.packages("rjson_0.2.8.tar.gz",repos=NULL,lib=/tmp)或类似的内容来临时安装R包,这样包

Hadoop 上次减少作业卡在连接超时

我的hadoop作业卡在了最后的reduce任务上。我已经看到很多从3个不同主机到单个主机的连接超时。但是,我能够从任何其他机器ping有问题的机器。这是一个5节点集群。它是最近build的。它们具有相同的hadoop和pig二进制文件。它有3台新机器和2台旧机器。如果我移除2台旧机器,它工作正常。有问题的旧机器版本:javaversion"1.6.0_20"OpenJDKRuntimeEnvironment(IcedTea61.9.13)(6b20-1.9.13-0ubuntu1~10.10.1)OpenJDK64-BitServerVM(build19.0-b09,mixedmod

hadoop - 在 MapReduce 作业配置中设置参数

是否有任何方法可以从Mapper设置作业配置中的参数,并且可以从Reducer访问。我试过下面的代码在映射器中:map(..):context.getConfiguration().set("Sum","100");在reducer中:reduce(..):context.getConfiguration().get("Sum");但在reducer中,值返回为null。有什么方法可以实现这个或我这边遗漏的任何东西吗? 最佳答案 据我所知,这是不可能的。作业配置在运行时由作业跟踪器序列化为XML,并复制到所有任务节点。对Config

hadoop - 运行配置单元查询,并收集作业信息

我想运行生成的HIVE查询列表。对于每个,我想检索MRjob_id(或id,如果是多个阶段)。然后,使用这个job_id,从jobtracker收集统计信息(累计CPU,读取字节......)我如何从bash或python脚本发送HIVE查询,并检索job_id(s)?对于第二部分(收集作业的统计信息),我们使用的是MRv1Hadoop集群,所以我没有AppMasterRESTAPI.我即将从jobtracker网络用户界面收集数据。有更好的主意吗? 最佳答案 运行这条命令可以得到执行的作业列表,hadoop作业-列出所有然后对于每

azure - 通过 Web UI 或跨平台 CLI 创建示例 Azure Hadoop 作业?

我正在尝试使用HDInsight在Azure上使用Hadoop,但对如何在我新创建的集群上运行Hadoop作业感到有点困惑。到目前为止,我已经创建了一个HDInsight群集并为其附加了一个存储帐户。我还在我的本地OSX机器上安装了azure-cli。有一个AzuretutorialonlaunchingHadoopjobs,但它使用PowerShell,我认为它不能通过Azurecross-platformCLI获得.除了启动WindowsVirtualBox之外,是否可以通过AzureWebUI(例如像AmazonEMR提供的那样)或通过一些其他与OSX兼容的命令行参数来创建作业?

perl - 在组合器中使用管道的 Hadoop 流作业

我正在尝试像这样运行一个Hadoop流作业:yarnjar/usr/lib/hadoop-mapreduce/hadoop-streaming-2.2.0.*.jar\-filescount.pl\-input"/my_events/*.bz2"\-outputcount-events\-mapper"cut-f2,4|grepfoo|cut-f1"\-combiner"perlcount.pl-s|perlcount.pl"\-reducer"perlcount.pl"count.pl脚本是一个简单的脚本,它只对键进行计数,像这样(简化)循环输入:while(){chomp;my($

java - 如何将外部 jar 添加到 hadoop 作业?

我有一个Hadoop作业,其中映射器必须使用外部jar。我试图将这个jar传递给映射器的JVM通过hadoop命令的-libjars参数hadoopjarmrrunner.jarDAGMRRunner-libjars/colt.jar通过job.addFileToClassPathjob.addFileToClassPath(newPath("/colt.jar"));在HADOOP_CLASSPATH上。g1mihai@hydra:/home/g1mihai/$echo$HADOOP_CLASSPATH/colt.jar这些方法都不起作用。这是我返回的堆栈跟踪。它提示缺少的类是Spa