cloudera-manager

hadoop - Cloudera Imala - 它是否支持存储过程/函数或 SQL block ？

ClouderaImala是否支持存储过程/函数或像PL/SQL这样的SQLblock？我要构建一些需要多个sql语句的逻辑。还有其他方法可以实现吗？最佳答案 Impala只提供SQL。您需要使用一些编程语言或工具来构建应用程序-SQL本身不能使用。PL/SQL是传统的数据库编程语言，它运行在嵌入数据库的PL/SQL引擎中。它减少了应用程序服务器和数据库服务器之间的开销，因为PL/SQL引擎嵌入在数据库中。然而，存储是网络安装的，数据仍然必须到达数据库服务器。在大数据技术的情况下，这样做并没有太大好处。即使您使用Java，它也会在

hadoop - 对于 Cloudera 5.4 hadoop 集群，Spark 独立调度程序或 Yarn 调度程序更好吗？

关于能够使用Spark运行机器学习作业。Yarn调度器和SparkStandalone调度器哪个更好？最佳答案运行实际的spark作业时没有区别。如果您的集群中运行着不同的spark应用程序和/或其他组件(当然支持Yarn/Mesos)，Yarn/Mesos可以帮助您安排资源。Spark独立集群无法管理资源。也就是说，如果您启动一个Spark应用程序并且它使用了所有资源，那么第二个应用程序将找不到任何剩余资源。这意味着您必须自己执行此操作(例如相应地调整Spark配置) 关于hado

hadoop Cloudera section Spark 中运 apache-spark scheduler hadoop-yarn

hadoop - Cloudera 管理器管理

我是ClouderaHadoop的新手，我想自己学习ClouderaHadoop管理，我在Windows笔记本电脑上安装了12GB内存，虚拟机大约9GB可用，有谁知道如何在中安装和使用Cloudera管理器练习cloudera管理的虚拟环境。有什么方法可以在只有8GB内存的情况下在cloudera管理器上工作吗？最佳答案所以基本上首先你需要安装一个带有操作系统的虚拟机，我通常更喜欢CentOS，但在安装它之前检查cloudera支持的操作系统，并且为了创建VM，你可以点击来自互联网的链接，这里是一个http://teaching

Cloudera hadoop section documentation cloudera-cdh cloudera-manager

hadoop配置值cloudera

我使用parcels通过cloudera管理器安装了hadoop。我需要找到设置以下变量的变量的路径。HADOOP_MAPRED_HOMEMR2_CLASSPATHHADOOP_COMMON_HOMEJAVA_LIBRARY_PATHHADOOP_CLIENT_CONF_DIRHADOOP_CONF_DIRHADOOP_HDFS_HOMEHADOOP_YARN_HOME有人可以帮我解决这个问题吗？我在哪里可以找到它们。最佳答案你可以在cloudera安装目录下找到这些设置的环境变量。通常，它确实安装在“opt”目录下，因此had

cloudera hadoop section

hadoop - 如何在 Cloudera 中安装自定义 Spark 版本

我是Spark、Hadoop和Cloudera的新手。我们需要使用特定版本(1.5.2)的Spark，并且还需要使用Cloudera进行集群管理，也需要使用Spark。但是，CDH5.5是随Spark1.5.0一起提供的，不能轻易更改。人们提到“只需手动下载”自定义版本的spark。但是如何通过Cloudera管理这个“自定义”spark版本，以便我可以在集群中分发它？或者，它是否需要完全独立于Cloudera进行操作和配置？感谢您的帮助和解释。最佳答案是的，可以运行任何ApacheSpark版本。!!在做之前我们需要确定的步骤

自定中安 section Spark hadoop apache-spark cloudera

azure - Cloudera - 启动服务 - NameNode 未格式化

我在Miscrosoftazure上安装了Cloudera集群。我每个周末都按照以下步骤关闭集群:1)ClouderaManager的ClouderaManagementService转2)停止ClouderaManager的所有服务3)转到名称节点并运行命令:servicecloudera-scm-serverstop4)关闭集群上的虚拟机。当我尝试启动这个集群时，我遵循以下步骤:1)启动集群上的虚拟机2)服务“cloudera-scm-server”在启动时已经启动。3)从CM开启Cloudera管理服务4)开启所有服务。这是它失败的地方，并向我提供了它无法启动名称节点的错误，因为

Cloudera NameNode section azure hadoop hdfs

hadoop - 为什么cloudera建议选择他们在Spark中做的executors、cores和RAM的数量

在博文中:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/我用天真的方式来解决它:给定16个内核、64个RAM、8个线程-使用15个内核、63个RAM、6个执行程序。相反，他们推荐17个执行程序、5个内核和19个RAM。我看到他们有一个RAM方程式，但我不知道发生了什么。如果您只在一台机器上运行它(而不是通过HDFS)，这是否仍然适用？感谢帮助最佳答案我认为他们很好地解释了为什么here:(查看从幻灯片5开始的幻灯片)

executors cloudera section RAM hadoop apache-spark pyspark hdfs bigdata

ruby - 我正在尝试将我的脚本从 Cloudera hbase 4(CDH4) 版本升级到 (CDH5)

defgetRegions(config,servername)connection=HConnectionManager::getConnection(config)parts=servername.split(',')putspartsrs=connection.getHRegionConnection(parts[0],parts[1].to_i)returnrs.getOnlineRegions()end我正在尝试使此代码与CDH5兼容。我查看了CDH5库，但无法找到确切的解决方案。我正在使用connection=ConnectionFactory::createConnect

CDH Cloudera section hbase apache ruby hadoop

hadoop - N 个 hadoop 节点中哪个节点正在运行 Cloudera Manager？

我有一个大型hadoop集群(24个节点)。我可以通过CLI访问这些节点。前几个没有运行ClouderaManager(cloudera-scm-server)。如何找出哪个节点正在运行ClouderaManager？感谢任何帮助。最佳答案 ClouderaManager将有两个服务。一个是服务器，另一个是代理。正如您所说，您可以通过CLI访问所有节点。因此，在所有节点上运行以下命令以查找哪个是服务器并打开(服务器将仅在一台机器上运行)sudoservicecloudera-scm-serverstatus另一种简单的查找CDHS

hadoop 点中 section Cloudera Manager hadoop2 cloudera-cdh cloudera-manager

hadoop - Cloudera Manager Yarn 和 Spark UI 不工作

我已经安装了CDH5.5.2，它在ClouderaManager中看起来没问题，直到我单击SparkHistoryServerUI链接或YarnHistoryServerUI链接。那些不起作用。不工作，我的意思是他们根本无法从浏览器访问。我在文件spark-defaults.conf中添加了以下几行spark.eventLog.dir=hdfs://name-node-1:8020/user/spark/applicationHistoryspark.eventLog.enabled=truespark.yarn.historyServer.address=http://name-no

Cloudera Manager name-node node allow hadoop apache-spark hadoop-yarn cloudera-cdh