Cloudera-CDH

hadoop - 如何将 Cloudera Hadoop "vbox"VMDK 转换为 VirtualBox VDI

大家好:我正在尝试在Virtualbox中运行ClouderaHadoopVM。首先，我注意到下载的是一个.vmdk文件。当然，这个后缀是针对VMWare的，所以有点奇怪。幸运的是，我在这里找到了关于如何将clouderavmdk转换为虚拟box文件的教程:http://www.ubuntugeek.com/howto-convert-vmware-image-to-virtualbox-image.html.但是，当我尝试使用convertdd将vmdk文件转换为虚拟box文件时，最终收到一条消息“无法写入磁盘镜像“cdh.vdi”VERR_DISK_FULL”所以我的问题是，如何在

VirtualBox amp section 中运 Virtual hadoop vmware cloudera

java - 历史服务器未在 cloudera Hadoop 上启动

我已经按照here中给出的说明设置了“hadoop”.我成功下载并部署了它，并且能够运行除historyserver之外的所有守护进程并运行示例程序。当我运行sbin/yarn-daemon.shstarthistoryserver时，显示以下错误。Exceptioninthread"main"java.lang.NoClassDefFoundError:historyserverCausedby:java.lang.ClassNotFoundException:historyserveratjava.net.URLClassLoader$1.run(URLClassLoader.ja

cloudera Hadoop java section historyserver exception

hadoop - 如何下载特定cloudera发行版的源代码？

stackoverflow的好心人帮我弄清楚了如何在我的ubuntu开发机器上识别特定的cloudera版本。(dpkg-l|grepcdh).现在我想摸索一下资源，但我不确定去哪里下载它们。假设我想下载hdfs源(使用cdh5.3.0的clouderamods):dpkg显示的版本是:hadoop-hdfs2.5.0+cdh5.3.0+781-1.cdh5.3.0.p0.54~精确现在，如果我转到这个github存储库:https://github.com/cloudera/hadoop-hdfs我没有看到任何包含字符串“5.3.0”的标签。所以我不知道该去哪里看。如有任何指点，我们

cloudera hadoop cdh5 hdfs

hadoop - 如何在cloudera quickstartVM -5.7.0中获取默认的HIVE_HOME？

如何在cloudera-quickstartVM-5.7中获取环境变量$HIVE_HOME的值？试图通过printenv查看存在的环境变量，它不存在。最佳答案 HIVE_HOME在调用hiveshell时设置。以下是找到HIVE_HOME的三种方法从hive命令行:[cloudera@quickstart~]$hive-e'!env'|grepHIVE_HOMEHIVE_HOME=/usr/lib/hive来自hiveshell-这将打印与上面相同的变量但是你不能在这里使用grep，所以你必须从所有变量的列表中找到HIVE_HOM

何在 quickstartVM code HIVE_HOME section hadoop hive sqoop

hadoop - Apache Yarn 公平调度程序一次只允许一个应用程序

我们有一个hadoop集群，配置了ClouderaCDH5.4.2发行版和Yarn公平调度程序，用于调度和管理资源。我们有18个工作节点，总计963GB主内存和288个vcores。现在的问题是我一次只能运行一个应用程序，无论该应用程序的资源需求有多小。例如这里是动态资源池状态:状态YARN使用288个vcores和942GiB内存。资源池使用此表和右侧的图表仅包含来自YARN的指标。资源池名称已分配内存已分配VCores已分配容器待处理容器根0B000用户10B001默认0B000用户222GiB11111对于用户2，即使在288个vcores和942GiB内存中只分配了22GB和1

hadoop Apache gt lt property hadoop-yarn cloudera-cdh

amazon-web-services - 设置 AWS 凭证 - Cloudera Quickstart Docker Container

我正在尝试使用Cloudera的Quickstartdocker容器来测试简单的Hadoop/Hive作业。我希望能够在S3中的数据上运行作业，但到目前为止我遇到了问题。我已将以下属性添加到core-site.xml、hive-site.xml、hdfs-site.xml。fs.s3.awsAccessKeyIdXXXXXXfs.s3.awsSecretAccessKeyXXXXXX无论如何，在Hive中尝试创建指向S3位置的外部表时，我收到错误:FAILED:SemanticExceptionjava.lang.IllegalArgumentException:AWSAccessKe

amazon-web-services Quickstart section gt lt hadoop hive cloudera cloudera-quickstart-vm

hadoop - 我收到 CDH4.0 错误 "The method addCacheFile(URI) is undefined for the type Job"

我遇到了错误ThemethodaddCacheFile(URI)isundefinedforthetypeJob使用CDH4.0时尝试调用addCacheFile(URIuri)方法，如下图:importjava.net.URI;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.

addCacheFile amp hadoop apache import mapreduce cloudera-cdh distributed-cache

hadoop - 在 docker 容器上的 zeppelin 中运行 spark 时找不到 lzo

我正在尝试将spark代码运行到zeppelin中，我得到了这个:java.lang.ClassNotFoundException:找不到类com.hadoop.compression.lzo.LzoCodeczeppelinembeddedspark和我自己安装的sparkshell(1.6.3)存在同样的问题session:来自debian:jessie的docker容器zeppelin版本:0.6.2(从tar安装而不是从源代码构建)cdh版本:5.9.0容器上安装了liblzo2-dev和hadoop-lzoSPARK_HOME和HADOOP_HOME被设置为环境变量，也在co

中运容器 apache spark scala hadoop apache-spark cloudera-cdh apache-zeppelin

hadoop - cloudera垃圾检查点间隔配置

Cloudera允许我配置fs.trash.interval。但它不允许我配置fs.trash.checkpoint.interval。那么hdfs什么时候创建检查点呢？这里有一个类似的问题没有回应:WhendoesHadoopFrameworkcreatesacheckpoint(expunge)toits"current"directoryintrash? 最佳答案 ApacheHadoop文档包括左侧导航中指向各种*-default.xml文件的链接。这些文件包含所有配置属性的默认设置。如果您点击*-default.xml链接

cloudera hadoop trash interval checkpoint hdfs

hadoop - CDH WebHDFS 请求重定向到 EC2 上的本地地址

我正在尝试设置一个环境，在其中我在本地运行我的一些后端，并从我的本地计算机向EC2实例发送请求。我有CDH4.5安装程序，它工作正常。当我运行以下请求时curl--negotiate-i-L-u:hdfshttp://ec2-xx-xx-xx-xx.eu-west-1.compute.amazonaws.com:50070/webhdfs/v1/tmp/test.txt?op=OPEN这适用于该区域中的任何EC2实例，但在该区域之外不起作用。如果我在本地尝试，它会返回以下错误curl:(6)Couldnotresolvehost:ip-xx-xx-xx-xx.eu-west-1.com

WebHDFS hadoop section code 该区 amazon-ec2 cloudera-cdh

8 9 101112 13 14