CLOUDERA

使用 hadoop 对一个巨大的文本文件进行排序

是否可以使用只有map任务和零reduce任务的mapreduce作业按字典顺序对巨大的文本文件进行排序？文本文件的记录以换行符分隔，文件大小约为1TerraByte。如果有人能提出一种方法来实现对这个巨大文件的排序，那就太好了。最佳答案在Map方法中使用TreeSet将整个数据保存在输入拆分中并持久化。终于拿到整理好的文件了! 关于使用hadoop对一个巨大的文本文件进行排序，我们在StackOverflow上找到一个类似的问题： https://sta

本文 hadoop section stackoverflow sorting mapreduce cloudera

hadoop - 如何下载特定cloudera发行版的源代码？

stackoverflow的好心人帮我弄清楚了如何在我的ubuntu开发机器上识别特定的cloudera版本。(dpkg-l|grepcdh).现在我想摸索一下资源，但我不确定去哪里下载它们。假设我想下载hdfs源(使用cdh5.3.0的clouderamods):dpkg显示的版本是:hadoop-hdfs2.5.0+cdh5.3.0+781-1.cdh5.3.0.p0.54~精确现在，如果我转到这个github存储库:https://github.com/cloudera/hadoop-hdfs我没有看到任何包含字符串“5.3.0”的标签。所以我不知道该去哪里看。如有任何指点，我们

cloudera hadoop cdh5 hdfs

Maven - 测试中的不同依赖版本

我遇到了类似于Maven2-differentdependencyversionsintestandcompile的问题但那里指定的答案不起作用。在我的项目中，我需要依赖Hadoop的Cloudera发行版和用于JUnit测试的“vanilla”版本，因为前者仅适用于*nix。当我尝试执行我的应用程序时，我得到Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/conf/Configuration。当我从Maven或Eclipse运行JUnit测试时，一切正常。如果我注释掉test依赖项，应用程

Maven 测试 INFO test jar hadoop cloudera

java - yarn 容器内存不足

我的yarn容器内存不足:这个特定的容器运行一个Apache-Spark驱动程序节点。我不明白的部分:我将驱动程序的堆大小限制为512MB(您可以在下面的错误消息中看到这一点)。但是yarn容器提示内存>1GB(另见下面的消息)。您可以验证yarn正在启动java是否使用Xmx512m运行。我的容器设置为1GB内存，增量为0.5GB。此外，我托管yarn容器的物理机器每个都有32GB。我通过SSH连接到其中一台物理机器，看到它有很多可用内存...另一个奇怪的事情是，java没有抛出OutOfMemory异常。当我查看驱动程序日志时，我发现它最终从yarn获取了一个SIGTERM，并正常

容器 java Dspark yarn 1453125563779 hadoop apache-spark cloudera hadoop-yarn

hadoop - 如何在cloudera quickstartVM -5.7.0中获取默认的HIVE_HOME？

如何在cloudera-quickstartVM-5.7中获取环境变量$HIVE_HOME的值？试图通过printenv查看存在的环境变量，它不存在。最佳答案 HIVE_HOME在调用hiveshell时设置。以下是找到HIVE_HOME的三种方法从hive命令行:[cloudera@quickstart~]$hive-e'!env'|grepHIVE_HOMEHIVE_HOME=/usr/lib/hive来自hiveshell-这将打印与上面相同的变量但是你不能在这里使用grep，所以你必须从所有变量的列表中找到HIVE_HOM

何在 quickstartVM code HIVE_HOME section hadoop hive sqoop

hadoop - Hive 执行钩子(Hook)

我需要在ApacheHive中挂接自定义执行Hook。如果有人知道该怎么做，请告诉我。我目前使用的环境如下:Hadoop:Cloudera版本4.1.2操作系统:Centos谢谢，阿伦最佳答案根据您要在哪个阶段注入(inject)自定义代码，有几种类型的Hook:驱动程序运行Hook(前/后)语义分析器Hook(前/后)执行Hook(前/失败/后)客户统计发布者如果您运行脚本，处理流程如下所示:Driver.run()接受命令HiveDriverRunHook.preDriverRun()(HiveConf.ConfVars.H

钩子 hadoop code li ConfVars hive bigdata cloudera

hadoop - Hive Metastore 尝试创建 Derby 连接而不是 MySQL

我在本地模式下使用Hive0.11和Metastore。当我尝试启动Metastore守护进程时，它在发出以下错误消息后退出:2013-11-2108:47:19.541GMT线程[main,5,main]java.io.FileNotFoundException:derby.log(权限被拒绝)2013-11-2108:47:19.646GMT线程[main,5,main]清理操作开始错误XBM0H:无法创建目录/metastore_db。这是我的hive-site.xml.我使用MySQL作为Metastore存储。我不明白的是为什么Hive试图在本地创建metastore_db。

Metastore hadoop section code hive cloudera

hadoop - HDFS 到 HDFS 完全强制移动文件

据我所知，在从一个HDFS位置移动到另一个位置时，没有直接选项可以覆盖HDFS中的文件，复制cp可以选择强制执行。我试图找出是否有任何黑客可以做到这一点？我们能做的是hdfsdfs-cp-f/hdfs/location1/hdfs/location2而不是hdfsdfs-mv-f/hdfs/location1//hdfs/location2/实现我的目的的一种方法是先执行hdfsdfs-cp-f/hdfs/location1/hdfs/location2，然后使用hdfsdfs-删除location1文件-rm-r/hdfs/location1但出于某种原因我不想这样做。任何其他使用一

HDFS hadoop code location cloudera

hadoop - 色调配置错误 -/etc/hue/conf.empty - 检测到潜在的错误配置

您好专家，我是Hadoop、linux环境和Cloudera的新手。我在我的机器上安装了clouderavm5.7，并使用SQOOP将mysql数据导入到hdfs。我正在尝试使用impala对这些数据执行一些查询。所以，我尝试启动HUE。当我启动时，我可以看到有一些配置错误。错误:检测到潜在的错误配置。修复并重新启动Hue。我已采取的解决此问题的步骤1)我使用以下命令重新启动了HUE:sudoservicehuestopsudo服务色调启动2)我尝试查看以下目录文件./etc/hue-我可以看到有两个配置文件夹。一个是config，另一个是config.empty。我无法弄清楚问题所在

调配 hadoop section docker stackoverflow cloudera hue cloudera-quickstart-vm

hadoop - 资源管理器没有节点

编辑:我看过YARNResourcemanagernotconnectingtonodemanager该解决方案对我不起作用。我附上了与资源管理器建立连接的节点管理器日志部分:[main]client.RMProxy(RMProxy.java:createRMProxy(98))-ConnectingtoResourceManagerat/0.0.0.0:80312016-06-1719:01:04,697INFO[main]nodemanager.NodeStatusUpdaterImpl(NodeStatusUpdaterImpl.java:getNMContainerStatus

hadoop 资源管理 property gt lt docker hadoop-yarn cloudera

13 14 151617 18 19