$cloudera_草庐IT

azure - Cloudera - 启动服务 - NameNode 未格式化

我在Miscrosoftazure上安装了Cloudera集群。我每个周末都按照以下步骤关闭集群:1)ClouderaManager的ClouderaManagementService转2)停止ClouderaManager的所有服务3)转到名称节点并运行命令:servicecloudera-scm-serverstop4)关闭集群上的虚拟机。当我尝试启动这个集群时，我遵循以下步骤:1)启动集群上的虚拟机2)服务“cloudera-scm-server”在启动时已经启动。3)从CM开启Cloudera管理服务4)开启所有服务。这是它失败的地方，并向我提供了它无法启动名称节点的错误，因为

hadoop - 为什么cloudera建议选择他们在Spark中做的executors、cores和RAM的数量

在博文中:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/我用天真的方式来解决它:给定16个内核、64个RAM、8个线程-使用15个内核、63个RAM、6个执行程序。相反，他们推荐17个执行程序、5个内核和19个RAM。我看到他们有一个RAM方程式，但我不知道发生了什么。如果您只在一台机器上运行它(而不是通过HDFS)，这是否仍然适用？感谢帮助最佳答案我认为他们很好地解释了为什么here:(查看从幻灯片5开始的幻灯片)

executors cloudera section RAM hadoop apache-spark pyspark hdfs bigdata

ruby - 我正在尝试将我的脚本从 Cloudera hbase 4(CDH4) 版本升级到 (CDH5)

defgetRegions(config,servername)connection=HConnectionManager::getConnection(config)parts=servername.split(',')putspartsrs=connection.getHRegionConnection(parts[0],parts[1].to_i)returnrs.getOnlineRegions()end我正在尝试使此代码与CDH5兼容。我查看了CDH5库，但无法找到确切的解决方案。我正在使用connection=ConnectionFactory::createConnect

CDH Cloudera section hbase apache ruby hadoop

hadoop - N 个 hadoop 节点中哪个节点正在运行 Cloudera Manager？

我有一个大型hadoop集群(24个节点)。我可以通过CLI访问这些节点。前几个没有运行ClouderaManager(cloudera-scm-server)。如何找出哪个节点正在运行ClouderaManager？感谢任何帮助。最佳答案 ClouderaManager将有两个服务。一个是服务器，另一个是代理。正如您所说，您可以通过CLI访问所有节点。因此，在所有节点上运行以下命令以查找哪个是服务器并打开(服务器将仅在一台机器上运行)sudoservicecloudera-scm-serverstatus另一种简单的查找CDHS

hadoop 点中 section Cloudera Manager hadoop2 cloudera-cdh cloudera-manager

hadoop - Cloudera Manager Yarn 和 Spark UI 不工作

我已经安装了CDH5.5.2，它在ClouderaManager中看起来没问题，直到我单击SparkHistoryServerUI链接或YarnHistoryServerUI链接。那些不起作用。不工作，我的意思是他们根本无法从浏览器访问。我在文件spark-defaults.conf中添加了以下几行spark.eventLog.dir=hdfs://name-node-1:8020/user/spark/applicationHistoryspark.eventLog.enabled=truespark.yarn.historyServer.address=http://name-no

Cloudera Manager name-node node allow hadoop apache-spark hadoop-yarn cloudera-cdh

linux - 生产中使用的是单cloudera单用户模式吗？

我已经使用默认用户模式和单用户模式设置了两个clouderahadoop集群，但我不知道在生产中使用哪种方法才是正确的。最佳答案在传统的ClouderaManager部署中，管理每个主机上的Hadoop进程的ClouderaManagerAgent作为根用户运行。但是，某些环境限制对根帐户的访问。在单用户模式下，ClouderaManagerAgent和由ClouderaManager管理的服务运行的所有进程都作为单个配置的用户和组启动。单用户模式优先考虑Hadoop与系统其余部分之间的隔离，而不是系统上运行的Hadoop进程之

单用户生产中 section Cloudera linux hadoop cluster-computing administration

java - Cloudera 中的 Hive 可以在没有数据库(如 Mysql、Oracle)的情况下工作吗

我安装了Cloudera并想使用Hive，但它不起作用。你能解释一下我是否需要为正常工作配置单元安装相同的数据库(Oracle或MySQL)，还是没有必要？最佳答案默认情况下，Derby数据库一次只能支持一个Activity用户。因此出于学习目的，您不需要MySQL/Oracle。如果您需要探索更多选项，请阅读~~>ConfiguringtheHiveMetastoreClouderarecommendsusingthismodeforexperimentalpurposesonly.Thisisthedefaultmetast

Cloudera Oracle section the metastore java linux hadoop hive

hadoop - 如何在cloudera集群中设置PIG_HEAPSIZE？

我有一个pig脚本，每次从Oozie运行时它都会内存不足。错误:Pig日志文件转储:Pig堆栈跟踪错误2998:未处理的内部错误。Java堆空间java.lang.OutOfMemoryError:Javaheapspaceatjava.lang.StringCoding$StringEncoder.encode(StringCoding.java:300)atjava.lang.StringCoding.encode(StringCoding.java:344)atjava.lang.StringCoding.encode(StringCoding.java:387)atjava.l

中设何在 section StringCoding java hadoop apache-pig hadoop-yarn cloudera cloudera-cdh

csv - cloudera quick start 使用终端加载 csv 表 hdfs

我对这一切还很陌生，因为我才上第二个学期，我只需要帮助来理解我需要执行的命令。我正在尝试使用终端将本地csv文件加载到cloudera上的hdfs。我必须使用这些数据并与Pig一起完成一项任务。我已经尝试了所有方法，但它仍然给我'nosuchfileordirectory'。我关闭了安全模式，检查了目录，甚至确保可以读取文件。以下是我尝试加载数据的命令:hadoopfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csv/user/roothdfsdfs-copyFromLoca

csv cloudera code copyFromLocal hadoop terminal hdfs

hadoop - Cloudera VM，压缩编解码器

我正在准备CLOUDERA认证，有时很难记住Sqoop导入过程中使用的压缩编解码器。例如:org.apache.hadoop.io.compress.SnappyCodec.考试期间不允许我使用谷歌。在考试的时候，有没有办法检索这些信息？目前我使用的是ClouderaQuickstartVM，在Mapred-site.xml中没有找到这个信息。我在哪里可以找到相同的？最佳答案我相当确定您可以访问Cloudera文档https://www.cloudera.com/documentation/enterprise/5-14-x/t

Cloudera hadoop section https introduction_compression compression