作业队

hadoop - 在 Hadoop 集群中为 MapReduce 作业部署 JAR

抱歉这个愚蠢的问题。我在CentOSlinux中有一个5节点的hadoop集群。名称节点/职位追踪器/二级名称节点/数据节点-2我写了一个mapreduce并编译了JAR。我需要将JAR部署到哪个节点？提前致谢。最佳答案在一个典型的hadoop集群中，应该有客户端节点。客户端节点用于在hadoop集群上运行客户端应用程序和集群管理工具。客户端机器执行以下任务:在HDFS集群中加载数据提交MapReduce作业(描述如何处理数据)在作业完成后检索或查看作业结果提交Pig或Hive查询Hadoop管理员通常在安装和配置hadoop集

hadoop - MapReduce 作业作为用户在/user/yarn/.staging 目录上获得权限错误运行

我有一个运行Hive操作的Oozie工作流。配置单元操作非常简单，它只是从一个表中读取副本到另一个表。该作业具有以下属性:user.name=yarnmapreduce.job.user.name=cloudfeeds作业失败并出现以下错误:15/07/1618:45:25INFOmapreduce.Job:Jobjob_1435680786374_0060failedwithstateFAILEDdueto:Applicationapplication_1435680786374_0060failed2timesduetoAMContainerforappattempt_143568

MapReduce staging hadoop apache java hive hadoop-yarn oozie

hadoop - 无法访问 YARN 作业历史记录

我正在使用从源代码构建的最新hadoop版本3.0.0。我已启动并运行我的时间线服务，并且已配置hadoop以将其用于作业历史记录。但是，当我在resoucemanagerUI中单击历史记录时，出现以下错误:-HTTPERROR404Problemaccessing/jobhistory/job/job_1444395439959_0001.Reason:NOT_FOUND有人可以指出我在这里遗漏了什么吗？以下是我的yarn-site.xml:-ThehostnameoftheTimelineservicewebapplication.yarn.timeline-service.hos

hadoop YARN gt lt property hadoop-yarn

java - 使用某种数据类型作为 MapReduce 作业的输入。

我正在处理一组MapReduce作业，这些作业将情节摘要列表转换为映射到电影ID的每个单词的索引以及它被使用的次数。我有一份工作接受输入并创建一个节点链表，其中包含单词、它来自的电影和次数。我的第二份工作使用这个LinkedList并使用单词作为键，使用电影ID和出现次数作为值，并吐出映射到每部电影的每个单词的索引以及出现次数。调用FileInputFormat.addInputPath()时，我可以使用Path()或String，每个元素用逗号分隔。拥有一个包含我的LinkedList包含的所有数据的大量字符串并不难，但让映射器使用LinkedList作为输入会更好。我读过有关链接M

MapReduce 某种 34 strong code java hadoop chaining

hadoop - map 减少作业在 sqoop 导入期间卡住

在运行这个sqoop导入命令时sqoopimport--connectjdbc:mysql://localhost/training--usernametraining--passwordtraining--tablecityByCountry在clouderaVM4.1.1上mapreduce作业卡在终端打印的最后一行mapreduce.Job:运行作业:job_1450451392672_000115/12/1710:41:55INFOmapreduce.Job:跟踪作业的url:http://localhost.localdomain:8088/proxy/application

导入期卡住 section training 1450451392672 hadoop mapreduce sqoop

hadoop - 将 TDCH 用于 hcat 作业类型的异常。不支持 DATE 列

我正在运行的查询是:hadoopcom.teradata.hadoop.tool.TeradataExportTool-urljdbc:teradata://tdx/TMODE=ANSI,CHARSET=UTF8,database=db-usernamexxx-passwordxxx-jobtypehcat-sourcetablecustomers-sourcedatabasexxx-nummappers1-targettablecustomers在运行作业时，我得到这个异常:com.teradata.connector.common.exception.ConnectorExcept

不支 hadoop teradata date hive hcatalog

hadoop - 我是否必须在所有节点中运行历史服务器才能在 Hadoop Cluster WebUI 中获取作业历史记录

我在Hadoop集群中遇到一个问题。我有一个包含5个数据节点和一个边缘/网关节点的Hadoop集群。我的问题是我必须在每个节点(1个名称节点和5个数据节点)中启动历史服务器，以从hadoopwebUI获取任何提交作业的作业历史记录。我在mapred-site.xml中添加了mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address但我猜它不能正常工作。如果我仅在名称节点或任何其他节点中启动历史服务器，HadoopClusterWeb-UI将无法向我显示作业历史记录并以一些错误结束。我的映射站点XMLmapred.jo

有节点中 gt lt property hadoop hadoop2 bigdata

hadoop - Spark/Hadoop 作业未并行运行

我想我遇到了初学者错误，但我真的不知道如何修复它，这让我抓狂。我有一个由2台机器组成的集群:8GB内存(6.9可用)，4核，Win10:运行一个主机，一个工作机，它也是我运行java驱动程序的机器(来自IntelliJ)2GBRAM(1.3可用)，4核，VM上的Ubuntu16.04(在VBox中运行):运行一个worker我有一个网络类，我想通过从具有单个网络的列表开始，然后使用平面图将每个网络转换为N个新网络，在for循环中生成网络。之后我有一个过滤器和一个计数。步骤:JavaSparkContextsc=newJavaSparkContext(conf);Listdata=Arr

hadoop strong currentN flatMap apache-spark parallel-processing mapreduce

hadoop - 无法获取 Master Kerberos 主体以用作 Talend 批处理作业的更新程序

我们正在尝试使用talend批处理(spark)作业访问Kerberos集群中的配置单元，但我们收到以下“无法获取主Kerberos主体以用作更新程序”错误。通过在talend中使用标准作业(非spark)，我们可以毫无问题地访问hive。观察结果如下:当我们运行sparkjobs时，talend可以连接到hiveMetastore并验证语法。例如，如果我提供了错误的表格命名它确实返回“找不到表”。当我们从没有数据的表中选择count(*)时，它返回“NULL”，但如果Hdfs(table)中存在某些数据，它会因错误而失败“无法获得主Kerberos主体以用作更新程序”。我不确定导致t

用作 Kerberos section 中包 hadoop apache-spark talend

java - 更改 Hadoop 作业的拆分数

我目前正在编写代码以使用Hadoop处理单个图像，因此我的输入只有一个文件(.png)。我有可以运行作业的工作代码，但不是运行顺序mappers，它只运行一个mapper并且从不生成其他mappers。我已经创建了我自己的FileInputFormat和RecordReader类的扩展，以便创建(我认为的)“n”个自定义splits->"n"map任务。我一直在疯狂地在网上搜索这种性质的示例以供学习，但我所能找到的只是处理将整个文件拆分的示例(意味着只有一个mapper)或为每个map任务使用文本文件中的固定行数(例如3行)。我想做的是发送一对坐标((x1,y1),(x2,y2))到坐

Hadoop java code slices import input split

185 186 187188189 190 191