作业队

hadoop - 色调步骤中的 Mapreduce 作业不清楚

我正在尝试在hue中运行mapreduce作业。我遵循了以下步骤:FillouttheEditNodeform1)Enterooziemrwfasthename,and"oozieMapReduceworkflow"asthedescription.2)NavigatetotheJARfilelocationanduploadtheJARfile.3)ClicktheAddPropertybuttonandaddeachofthesefourproperties:PropertyNameValuemapred.mapper.classorg.apache.oozie.example.S

hadoop - 如何收集 mapreduce 作业的输出？

我尝试用mapreduce编写一个简单的字数统计程序。我的mapreduce程序只将输出写入文件。但我不希望我的输出写入文件。我想收集该信息或输出(如java集合)以用于我的程序区域的其余部分。例如，如果我在配置单元上提交任何查询，它会返回一个结果集对象，但在内部我的查询将转换为mapreduce程序，并在完成作业后返回结果集对象。与其他mapreduce程序不同，它不会将结果写入文件系统。那么我如何收集输出或者如何在reducer或mapper中准备我自己的对象并在java程序的其他区域收集该对象？我不希望将输出写入文件。最佳答案

mapreduce hadoop section 帕特 bigdata

java - 使用 MapReduce 作业的 HBase 批量删除

我正在尝试使用mapreduce作业从Hbase表中删除行。我收到以下错误。java.lang.ClassCastException:org.apache.hadoop.hbase.client.Deletecannotbecasttoorg.apache.hadoop.hbase.KeyValueatorg.apache.hadoop.hbase.mapreduce.HFileOutputFormat$1.write(HFileOutputFormat.java:124)atorg.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWr

MapReduce HBase apache hadoop code java scalability

r - 临时在 Hadoop 节点上安装 R 包用于流作业

我可以访问具有基础R(2.14.1)但没有在每个节点中安装额外包的Hadoop集群。我一直在编写基本的R映射器和缩减器流脚本来解决我没有额外包的事实。但是，我已经到了需要使用某些包(主要是rjson)作为脚本的一部分的地步。我没有集群的管理员权限，并且用户帐户受到相当限制。让集群管理员在每个节点上安装包不是一个选项(目前)，并且集群没有外部互联网访问权限。我已将rjson_0.2.8.tar.gz源文件上传到我的网关节点。是否可以通过添加install.packages("rjson_0.2.8.tar.gz",repos=NULL,lib=/tmp)或类似的内容来临时安装R包，这样包

Hadoop 临时 section install 流媒 r streaming

Hadoop 上次减少作业卡在连接超时

我的hadoop作业卡在了最后的reduce任务上。我已经看到很多从3个不同主机到单个主机的连接超时。但是，我能够从任何其他机器ping有问题的机器。这是一个5节点集群。它是最近build的。它们具有相同的hadoop和pig二进制文件。它有3台新机器和2台旧机器。如果我移除2台旧机器，它工作正常。有问题的旧机器版本:javaversion"1.6.0_20"OpenJDKRuntimeEnvironment(IcedTea61.9.13)(6b20-1.9.13-0ubuntu1~10.10.1)OpenJDK64-BitServerVM(build19.0-b09,mixedmod

Hadoop 上次 ReduceTask apache

hadoop - 在 MapReduce 作业配置中设置参数

是否有任何方法可以从Mapper设置作业配置中的参数，并且可以从Reducer访问。我试过下面的代码在映射器中:map(..):context.getConfiguration().set("Sum","100");在reducer中:reduce(..):context.getConfiguration().get("Sum");但在reducer中，值返回为null。有什么方法可以实现这个或我这边遗漏的任何东西吗？最佳答案据我所知，这是不可能的。作业配置在运行时由作业跟踪器序列化为XML，并复制到所有任务节点。对Config

MapReduce hadoop code section 跟踪器

hadoop - 运行配置单元查询，并收集作业信息

我想运行生成的HIVE查询列表。对于每个，我想检索MRjob_id(或id，如果是多个阶段)。然后，使用这个job_id，从jobtracker收集统计信息(累计CPU，读取字节......)我如何从bash或python脚本发送HIVE查询，并检索job_id(s)？对于第二部分(收集作业的统计信息)，我们使用的是MRv1Hadoop集群，所以我没有AppMasterRESTAPI.我即将从jobtracker网络用户界面收集数据。有更好的主意吗？最佳答案运行这条命令可以得到执行的作业列表，hadoop作业-列出所有然后对于每

配置单 hadoop section stackoverflow automation hive

azure - 通过 Web UI 或跨平台 CLI 创建示例 Azure Hadoop 作业？

我正在尝试使用HDInsight在Azure上使用Hadoop，但对如何在我新创建的集群上运行Hadoop作业感到有点困惑。到目前为止，我已经创建了一个HDInsight群集并为其附加了一个存储帐户。我还在我的本地OSX机器上安装了azure-cli。有一个AzuretutorialonlaunchingHadoopjobs，但它使用PowerShell，我认为它不能通过Azurecross-platformCLI获得.除了启动WindowsVirtualBox之外，是否可以通过AzureWebUI(例如像AmazonEMR提供的那样)或通过一些其他与OSX兼容的命令行参数来创建作业？

跨平台 Hadoop section noreferrer noopener azure azure-hdinsight

perl - 在组合器中使用管道的 Hadoop 流作业

我正在尝试像这样运行一个Hadoop流作业:yarnjar/usr/lib/hadoop-mapreduce/hadoop-streaming-2.2.0.*.jar\-filescount.pl\-input"/my_events/*.bz2"\-outputcount-events\-mapper"cut-f2,4|grepfoo|cut-f1"\-combiner"perlcount.pl-s|perlcount.pl"\-reducer"perlcount.pl"count.pl脚本是一个简单的脚本，它只对键进行计数，像这样(简化)循环输入:while(){chomp;my($

Hadoop perl code count section streaming

java - 如何将外部 jar 添加到 hadoop 作业？

我有一个Hadoop作业，其中映射器必须使用外部jar。我试图将这个jar传递给映射器的JVM通过hadoop命令的-libjars参数hadoopjarmrrunner.jarDAGMRRunner-libjars/colt.jar通过job.addFileToClassPathjob.addFileToClassPath(newPath("/colt.jar"));在HADOOP_CLASSPATH上。g1mihai@hydra:/home/g1mihai/$echo$HADOOP_CLASSPATH/colt.jar这些方法都不起作用。这是我返回的堆栈跟踪。它提示缺少的类是Spa

hadoop java ObjectStreamClass mapreduce noclassdeffounderror

194 195 196197198 199 200