cluster-manager

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster？

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置？问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问，不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业，并且“--conf”是为spark本身保留的，但是我如何从命令行和应用程序一起设置yarn的配置？最佳答案您可以修改Spar

hadoop - Spark yarn-cluster 模式 - 读取通过 --files 传递的文件

我正在使用yarn-clustermaster运行我的spark应用程序。应用程序有什么作用？外部服务根据对RESTService的HTTP请求生成一个jsonFileSpark需要读取这个文件并在解析完json之后做一些工作想到的最简单的解决方案是使用--files加载该文件。在yarn-cluster模式下读取文件意味着它必须在hdfs上可用(如果我是对的？)并且我的文件正在被复制到这样的路径:/hadoop_user_path/.sparkStaging/spark_applicationId/myFile.json我当然可以在哪里阅读它，但是我找不到从任何配置/SparkEnv

yarn-cluster 传递 code spark section hadoop apache-spark hdfs hadoop-yarn

java - 使用 Apache Sqoop 从 MySQL 导入数据 - 错误 : No manager for connect string

我正在尝试将Mahout与外部数据源集成。我正在关注ApacheMahoutCookbook为此预订。我已经配置了Hadoop2.4、MySQL服务器并且我已经将一个虚拟数据库导入到mysql中。我还按照书中的步骤安装了ApacheSqoop，并在Sqoop库(sqoop/lib)中下载并部署了mysql-connector-java-5.1.30.jar我用ant命令构建了sqoop:antmvn-install构建顺利。我正在尝试使用书中所述的以下命令从mysql导入数据:sqoopimport-all-tables--connectjdbc:mysql/localohost/bb

connect manager sqoop apache java mysql hadoop

hadoop - Hive 中 Cluster By 和 CLUSTERED BY 的区别？

我想知道Hive中ClusterBy和CLUSTEREDBY的主要区别是什么。ClusterBy用于对表进行分桶。并且会用到Hash函数。CLUSTEREDBY用于在reducer中按值排序。还有什么区别吗。请告诉我谢谢文卡特巴拉。最佳答案 “聚类依据”仅将您的键分布到不同的桶中，“聚类依据”确保N个缩减器中的每一个都获得不重叠的范围，然后在缩减器中按这些范围排序。主要区别在于排序。关于hadoop-Hive中ClusterBy和CLUSTEREDBY的区别？，我们在StackOve

CLUSTERED Cluster section 缩减 hadoop hive

hadoop - Yarn Resource Manager UI 中的 Num Off Switch Containers 是什么意思？

我有一个ETL作业占用大量CPU和内存并运行了很长时间。我在调试时观察到的第一件事如下(来自资源管理器GUI上的作业)NumNodeLocalContainers(满足)=6NumRackLocalContainers(满足)=00NumOffSwitchContainers(满足)=11367我们只有两个架子。我需要帮助回答以下三个问题NumOffSwitchContainer的含义是什么？我如何识别这些“关闭开关”容器以及它们在哪些节点上运行？关闭开关容器是否会导致作业处理时间变慢？最佳答案 1.NumOffSwitchCon

Containers Resource 容器 section strong hadoop mapreduce hadoop-yarn hortonworks-data-platform

hadoop - 无法初始化 Cluster Hadoop-2.7.1 和 YARN

对于示例中的简单程序字数统计，即使所有作业都在运行，提交作业也会失败。hadoopjarhadoop-mapreduce-examples-2.7.1.jarwordcounthdfs://localhost:9000/inputhdfs://localhost:9000/outputJPS31265SecondaryNameNode31064DataNode30929NameNode31478ResourceManager32354Jps错误java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfiguration

Cluster hadoop gt lt hadoop-yarn

hadoop - Cloudera manager - hadoop安装失败

尝试安装ClouderaManager。在hadoop主机中的步骤自动安装失败。Error:InstallingJDKpackage...BEGINyuminfojdkLoadedplugins:fastestmirrorLoadingmirrorspeedsfromcachedhostfile*base:archive.cs.uu.nl*extras:archive.cs.uu.nl*updates:mirror.fraunhofer.dehttp://archive.cloudera.com/redhat/cdh/3/repodata/repomd.xml:[Errno4]IOEr

hadoop Cloudera section yum gt

hadoop - java.lang.IllegalStateException : No clusters found. 检查你的 -c 路径

我在命令行使用以下命令使用Mahoutkmeans算法对数据进行聚类mahoutkmeans-i/vect_out/tfidf-vectors/-c/out_canopy-o/out_kmeans-dmorg.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure-cd1.0-x20-cl其中/out_canopy是包含使用Mahoutcanopy集群创建的集群的目录，其中包含一个clusters-0目录，该目录本身包含一个名为_logs的目录和一个文件命名为part-r-00000但是一直报如下错误java.lang

IllegalStateException clusters code section out_canopy hadoop machine-learning cluster-computing cluster-analysis mahout

hadoop - 无法在 Cloudera Manager 中启动 HBase

在我的设置中，由于电源中断，我的虚拟机在重新启动所有虚拟机后进入停机状态我无法启动Hbase，所有其他服务都可以重新启动/停止/启动，但在CM的UI中在hbaseACTIONS选项卡中，所有选项都被隐藏了..以下是我的hbasemaster日志，现在处于退出模式6:29:05.880AMERRORorg.apache.hadoop.hbase.zookeeper.RecoverableZooKeeperZooKeeperexistsfailedafter3retries6:29:05.880AMWARNorg.apache.hadoop.hbase.zookeeper.ZKUtilhc

Cloudera Manager apache zookeeper org hadoop hbase cloudera-manager

linux - 为什么 Cloudera Manager 报告磁盘已满？

ClouderaManager报告我的Hadoop集群的某些节点上的磁盘已满，但是使用df-h手动检查可用空间时，每个磁盘几乎都是半空的。这是一个错误还是我需要发出一些其他命令来检查实际可用空间？ClouderaManager在进行健康检查时使用什么命令？最佳答案我解决了这个问题。属性dfs.datanode.du.reserved设置为100GB，因此Hadoop无法使用该空间量(对于每个卷)来存储新的HDFSblock。关于linux-为什么ClouderaManager报告磁

Cloudera Manager section linux hadoop cloudera-manager