我正在构建一个docker镜像,以针对使用YARN的生产Hadoop集群在本地运行zeppelin或spark-shell。编辑:环境是macOS我可以很好地执行作业或spark-shell,但是当我尝试访问YARN上的TrackingURL时,作业正在运行,它会挂起YARN-UI整整10分钟。YARN仍在工作,如果我通过ssh连接,我可以执行yarn命令。如果我不访问SparkUI(直接或通过YARN),什么也不会发生。作业已执行且YARN-UI未挂起。更多信息:本地,在Docker上:Spark2.1.2、Hadoop2.6.0-cdh5.4.3生产环境:Spark2.1.0、Ha
我正在使用yarnjar命令运行MR作业,它会在/tmp文件夹中创建一个临时jar,它会填满整个磁盘空间。我想将这个jar的路径重定向到我有更多磁盘空间的其他文件夹。关于这个link,我开始知道我们可以通过为hadoop版本1.x设置属性mapred.local.dir来更改路径。我正在使用以下命令来运行jaryarnjarmyjar.jarMyClassmyyml.ymlarg1-Dmapred.local.dir="/grid/1/uie/facts"上面的参数mapred.local.dir没有改变路径,它仍然在tmp文件夹中创建jar。 最佳答案
我正在尝试从hbase表中读取数据,对其进行一些处理并使用以下代码将其存储在另一个表中packageanalysis;importjava.io.IOException;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.client.Put;importorg.apache.hadoop.hbase.io.ImmutableByte
我正在使用独立的HBase,因此需要按照-get"ERROR:Can'tgetmasteraddressfromZooKeeper;znodedata==null"whenusingHbaseshell中提供的建议从hbase-site.xml中删除一些属性文件。但是当我尝试编辑“hbase-site.xml”文件时,它说只有读取级别的权限。如何解决? 最佳答案 默认情况下,hbase-site.xml只允许hbase/root用户有写权限,所有其他用户只有读权限。以下是具有权限的示例文件。-rw-r--r--1hbasehadoo
使用Flink1.7.1为kubernetes上的单个作业集群构建它flink无法加载核心站点xml尽管在类路径上,导致忽略配置,但是,如果我将ENV变量AWS_SECRET_ACCESS_KEYAWS_ACCESS_KEY_ID工作找到它,但如果我依赖于core-site.xml,那么没有环境变量它就永远无法工作。我目前正在复制core-site.xml,因为它显示在Dockerfile中,并且正如文档所说,将HADOOP_CONF_DIR作为指向它的环境变量。它仍然不加载它,导致NoCredentialsProvider。异常(exception)是:Causedby:org.ap
我是Spark、Hadoop和Yarn的初学者。我用以下命令安装Spark:https://spark.apache.org/docs/2.3.0/和Hadoop/yarn:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html.我的目标是在yarncluster上运行spark应用程序,但我遇到了问题。我们怎么知道我们的设置何时工作?我会告诉你我的例子。完成设置后,我尝试运行测试jar:examples/jars/spark-examples*.jar。当我在
我正在使用以下配置在YARN上提交spark应用程序conf.set("spark.executor.cores","3")conf.set("spark.executor.memory","14g")conf.set("spark.executor.instances","4")conf.set("spark.driver.cores","5")conf.set("spark.driver.memory","1g")但是,在YARN资源管理器UI上,它显示vCoresused=5,我预计vCores曾经是17((4x3)+5=17)即12执行人和5驱动程序。但它总是显示等于execu
我正在尝试在本地设置配置单元。我启动了所有Hadoop进程并设置了{hive}/bin路径。在命令提示符下,我可以运行配置单元命令、创建和读取表。我的问题是-1)hive-site.xml是可选文件吗?2)在没有hive-site.xml文件的情况下,hive如何获取regradingmetastore等配置的信息? 最佳答案 如果您从安装了Hadoop的本地计算机运行Hive查询,则不需要hive-site.xml,因为您直接与hive/bin对话在Hive安装目录中。您无需告诉Hive在哪里可以找到Hive。如果您想从另一台机器
有一个Java和CLI接口(interface)可以查询YarnRM的节点到节点标签(和反向)映射。有没有办法通过REST-API来做到这一点?最初的RM-API搜索显示只有基于节点标签的作业提交是一个选项。遗憾的是,这实际上在MapR-Hadoop(截至6/6/19的6.1)中被破坏了,所以我的代码必须通过实现正确的调度本身来解决这个问题。这可以使用YarnClientJavaAPI(几乎没有-这里还有更多损坏的API)。但由于我想同时针对不同的资源管理器安排作业,在防火墙后面,REST-API是实现此目的最引人注目的选择,而YarnClientAPI的RPC后端不容易传输。我目前最
我正在使用Beeline并喜欢为TEZ作业设置一个特定的名称,就像我使用mapreduce.job.name对于MapReduce作业。我试过hive.query.name,但它对yarnapplication-list没有任何影响.有人说我们只能在TEZUI中查看名称,但我只能访问YARN。请帮助我。我在Beeline中有一个加载脚本,现在正在运行TEZ作为执行引擎,当我尝试使用yarnapplication-list查看YARN中的事件应用程序时命令,我得到类似HIVE-的信息作为工作名称。我想将其更改为更具可读性。如果执行引擎是SETmapreduce.job.name=myJo