Cloudera-CDH_草庐IT

hadoop - 我们可以在 CDH 中使用一些内置的配置管理而不是使用 Chef/Puppet

我是Hadoop的新手，是从Linux转过来的。真的不知道这是否愚蠢，但我们是否有用于配置管理的CDH工具(内置的东西)或者我们是否需要像chef/puppet这样的第三方集成。对于监控，我们是否需要像nagios这样的工具或CDM就足够了。问候艾娜莱斯特最佳答案你可以试试ClouderaManager用于集群管理/监控/警报/变更管理/审计。ClouderaManager(CM)有两种变体:CMExpress:免费且最适合入门。提供部署和配置、管理、监控和诊断工具CMEnterprise:每个节点的年度订阅。提供CMExpre

hadoop - 为什么带有 YARN 的 Mapreduce 卡在 CDH 5.3 上？

使用YARN的Mapreduce无法领先于0%map和0%reduce。我在谷歌计算高内存实例(13GMRAM)上使用ClouderaCDH。机器上有8GB可用内存。你能帮我解决一下吗？sunny@hadoop-m:~$hadoopjar/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/jars/hadoop-mapreduce-examples-2.5.0-cdh5.3.0.jargrepinputoutput'dfs[a-z.]+'14/12/2400:13:53INFOclient.RMProxy:ConnectingtoResou

Mapreduce hadoop section hadoop-yarn cloudera-cdh

python - 通过 Python 连接到 Cloudera 集群

我有一个已启动并正在运行的Cloudera集群。我目前正在编写一个Python应用程序，它查询API以获得响应。我正在将此响应写入应用程序中的文本文件。但是，我还想在应用程序中以编程方式将此文本文件导出到cloudera集群。这可能吗？能否请您指出一些引用资料或示例代码来实现此目的？或者只是您对此的想法和建议。谢谢! 最佳答案您可能希望查看Spotify的Snakebite项目，它为您提供了一种直接通过Python使用HDFS的方法。http://spotify.github.io/snakebite/fromsnakebite.

Cloudera python section snakebite hadoop export hdfs

Hadoop 从 Cloudera 中删除挂载点文件夹

我已经搜索过，并且一直在阅读ClouderaHadoop上有关删除挂载点文件系统的内容，但我找不到有关删除它们的内容。我在6台机器上有两个SSD驱动器，当我最初安装ClouderaHadoop时，它添加了所有文件系统，我只需要两个挂载点来运行几个teragen和terasorts。我需要删除除以下内容之外的所有内容:/dev/nvme0n1和/dev/nvme1n1 最佳答案在ClouderaManager中，您可以修改用于HDFS数据的驱动器列表:Clusters>HDFS>Configuration>DataNodeDefau

Cloudera Hadoop section hdfs removeall

hadoop - 如何在 Cloudera 中配置 Yarn 以在所有集群节点上运行 Spark 执行程序？

我们有一个Cloudera集群，其中包含3个数据节点和相应的yarn节点管理器。然而，当我们以yarn-client模式向集群提交一个spark脚本时，其中一个节点被处理为applicationmaster，只有另外两个节点被处理为Sparkexecutor。这显示在下面的spark日志中，其中只有节点2和节点3被设置为执行者:Usingpropertiesfile:/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/conf/spark-defaults.confAddingdefaultproperty:spark.

何在 Cloudera 15 INFO 20 hadoop apache-spark hadoop-yarn

java - Pydoop 错误 : RuntimeError: java home not found, 尝试使用 CDH5.4 在远程服务器上设置 JAVA_HOME

目标:使用pydoop从我的笔记本电脑读取存储在HDFS中的远程文件。我用的是pycharm专业版。我正在使用ClouderaCDH5.4我的笔记本电脑上的pyCharm配置:在项目解释器(在设置下)中，我已将python编译器定向到远程服务器上，如ssh://remote-server-ip-address:port-number/home/ashish/anaconda/bin/python2.7现在有一个文件存储在HDFS位置/home/ashish/pencil/someFileName.txt然后我使用pipinstallpydoop在远程服务器上安装pydoop并安装它。然

java RuntimeError home ashish pydoop python hadoop hdfs

hadoop - Cloudera Imala - 它是否支持存储过程/函数或 SQL block ？

ClouderaImala是否支持存储过程/函数或像PL/SQL这样的SQLblock？我要构建一些需要多个sql语句的逻辑。还有其他方法可以实现吗？最佳答案 Impala只提供SQL。您需要使用一些编程语言或工具来构建应用程序-SQL本身不能使用。PL/SQL是传统的数据库编程语言，它运行在嵌入数据库的PL/SQL引擎中。它减少了应用程序服务器和数据库服务器之间的开销，因为PL/SQL引擎嵌入在数据库中。然而，存储是网络安装的，数据仍然必须到达数据库服务器。在大数据技术的情况下，这样做并没有太大好处。即使您使用Java，它也会在

Cloudera hadoop section SQL stackoverflow hive impala

hadoop - 对于 Cloudera 5.4 hadoop 集群，Spark 独立调度程序或 Yarn 调度程序更好吗？

关于能够使用Spark运行机器学习作业。Yarn调度器和SparkStandalone调度器哪个更好？最佳答案运行实际的spark作业时没有区别。如果您的集群中运行着不同的spark应用程序和/或其他组件(当然支持Yarn/Mesos)，Yarn/Mesos可以帮助您安排资源。Spark独立集群无法管理资源。也就是说，如果您启动一个Spark应用程序并且它使用了所有资源，那么第二个应用程序将找不到任何剩余资源。这意味着您必须自己执行此操作(例如相应地调整Spark配置) 关于hado

hadoop Cloudera section Spark 中运 apache-spark scheduler hadoop-yarn

hadoop - Cloudera 管理器管理

我是ClouderaHadoop的新手，我想自己学习ClouderaHadoop管理，我在Windows笔记本电脑上安装了12GB内存，虚拟机大约9GB可用，有谁知道如何在中安装和使用Cloudera管理器练习cloudera管理的虚拟环境。有什么方法可以在只有8GB内存的情况下在cloudera管理器上工作吗？最佳答案所以基本上首先你需要安装一个带有操作系统的虚拟机，我通常更喜欢CentOS，但在安装它之前检查cloudera支持的操作系统，并且为了创建VM，你可以点击来自互联网的链接，这里是一个http://teaching

Cloudera hadoop section documentation cloudera-cdh cloudera-manager

hadoop配置值cloudera

我使用parcels通过cloudera管理器安装了hadoop。我需要找到设置以下变量的变量的路径。HADOOP_MAPRED_HOMEMR2_CLASSPATHHADOOP_COMMON_HOMEJAVA_LIBRARY_PATHHADOOP_CLIENT_CONF_DIRHADOOP_CONF_DIRHADOOP_HDFS_HOMEHADOOP_YARN_HOME有人可以帮我解决这个问题吗？我在哪里可以找到它们。最佳答案你可以在cloudera安装目录下找到这些设置的环境变量。通常，它确实安装在“opt”目录下，因此had

cloudera hadoop section