CLOUDERA_草庐IT

hadoop - 人类可读格式的cloudera hadoop集群上的剩余空间

我正在寻找一个命令来显示hadoop集群上剩余空间的人类可读形式。我在这个论坛上找到了一个命令，输出在图像中。hdfsdfsadmin-报告[dfsadmin命令的输出][1]我听说hortonworks中还有另一个命令可以提供更易读的输出。该命令是hdfsdfsadmin-report该命令似乎不适用于cloudera。cloudera中是否有任何等效命令？非常感谢最佳答案不管您使用的是Cloudera还是Hortonworks。如果您使用的是旧版本的hadoop，则命令可能是hadoopdfsadmin-report。您还有

xml - 如何使用 StreamXmlRecordReader 解析单个文件中的单行和多行 xml 记录

我有一个输入文件(txt)如下val1||val2||val3||val4-c-1val4-c-2val-d-1如果仔细观察输入，第三个'||'后面的xml数据记录分为两行。我想用hadoopstreaming的StreamXmlRecordReader来解析这个文件-inputreader"org.apache.hadoop.streaming.StreamXmlRecordReader,begin=,end=,slowmatch=true我无法解析第三条记录。我收到以下错误Traceback(mostrecentcalllast):File"/home/rsome/test/cod

多行 StreamXmlRecordReader gt lt val xml python-2.7 hadoop cloudera hadoop-streaming

hadoop - 如何使用数据上的某些键将 HDFS 文件拆分为多个目录

我有一个包含以下示例数据的HDFS文件idnametimestamp1Lorem2013-01-012Ipsum2013-02-013Ipsum2013-03-01现在我想以/data/YYYY/MM/DD格式将数据拆分到多个目录中，例如记录1转到目录/data/2016/01/01.pig中有MultiStorageUDF，可以按年、月或日拆分为单个目录。有什么办法可以分成多个目录吗？最佳答案您可以从这三种方法中进行选择:您可以编写shell脚本来完成此任务你可以用partition-er类编写mapreduce作业您可以创建

hadoop HDFS file cloudera 2013 apache-pig

hadoop - 子查询中的子查询在配置单元中不起作用

我有一个复杂的查询，我在这里给出了它的简化版本。想知道为什么它不起作用。select*from((select1)t1union(select2)t2);出现以下错误NoViableAltException(290@[147:5:((IdentifierLPAREN)=>partitionedTableFunction|tableSource|subQuerySource|virtualTableSource)])atorg.antlr.runtime.DFA.noViableAlt(DFA.java:158)atorg.antlr.runtime.DFA.predict(DFA.ja

配置单 hadoop HiveParser apache hive cloudera bigdata

hadoop - 如果 Impala 查询内存不足会怎样？

如果Impala查询内存不足会发生什么:Impala守护进程是否崩溃？它会写入磁盘吗？详细的解释会有所帮助! 最佳答案这取决于Impala的版本及其配置方式。一般来说，Impala会在内存不足时终止查询。有一个进程范围的内存限制，此时任何请求内存的查询都将被终止。还有另一个可选的、每个查询的内存限制。Impala2.0及更高版本支持“溢出”大型连接和聚合运算符，这有助于避免这些内存不足的情况。关于hadoop-如果Impala查询内存不足会怎样？，我们在StackOverflow上找

hadoop Impala section stackoverflow cloudera

hadoop - 在 HDFS 中创建文件但不附加任何内容

我正在使用HTTP源将JSON文件放入HDFS(单节点SANDBOX)。文件在正确的目录中创建，但没有任何内容附加到文件中。在我开始调试HTTP源之前，你能验证我的flume.conf吗？##################################################################Namethecomponentsonthisagent#################################################################hdfs-agent.sources=httpsourcehdfs-agent.sin

建文中创 hdfs-agent hdfs agent hadoop cloudera flume hortonworks-data-platform flume-ng

hadoop - 配置单元 : The application won't work without a running HiveServer2

我是这个领域的新手。我正在检查CDH5.8快速启动VM以尝试一些基本的hive/impala示例。但是我遇到了一个问题，当我打开HUE时出现以下错误。我搜索了解决方案，但没有找到任何可以解决我的问题的方法。Configurationfileslocatedin/etc/hue/conf.emptyPotentialmisconfigurationdetected.FixandrestartHue.HiveTheapplicationwon'tworkwithoutarunningHiveServer2.我检查过，它已启动并正在运行。尝试重新启动服务和CDH，没有帮助。HiveServe

配置单 HiveServer2 code section pre hadoop cloudera cloudera-cdh hue cloudera-quickstart-vm

hadoop - 如何在 Ubuntu (12.0.4)-32 位上安装 cloudera manager

我有一个32位的Ubuntu版本，似乎最新的ClouderaManager只支持64位。有没有人在Ubuntu(12.0.4)32位上安装了CDH4和云时代管理器？。你能不能让我知道怎么做。最佳答案我相信32位Ubuntu不支持CDH4。32位RHEL6.2支持32位关于hadoop-如何在Ubuntu(12.0.4)-32位上安装clouderamanager，我们在StackOverflow上找到一个类似的问题： https://stackoverf

何在 cloudera section Ubuntu stackoverflow hadoop bigdata

hadoop - 为什么 Raid 不在 Hadoop 2.x 中？

在0.22.0版本中我们可以找到raidcontrib，但是Hadoop2ndgeneration(version2.x)似乎不再支持hdfs-raid了，请问是什么原因呢？最佳答案 Hadoop有自己的复制和检查机制。以下引自AlexHolme的HadoopInPracticeUsingRAID,however,isstronglydiscouragedontheDataNodes,becauseHDFSalreadyhasreplicationanderror-checkingbuilt-in;butontheNameNode

hadoop section strong mapreduce hdfs cloudera hortonworks-data-platform

hadoop - 如何使用安装在 EC2 上的 Cloudera Manager 4.0 解析主机

任何人都可以提供ClouderaManager4.1免费版帮助说明在EC2中解析主机吗？我在EC2m1.large实例上安装了ClouderaManager4.1免费版。当我使用外部主机名(dn1.example.com)搜索主机时，它会正确显示并正确安装软件包。但是，经过检查，它没有出现。唯一出现的服务器是安装ClouderaManager的服务器(ip-#-#-#-136.ec2.internal)。我什至尝试在主机搜索中使用dn1的其他主机名(ec2-#-#-#-47.compute-1.amazonaws.com、ip-#-#-#-152.ec2.internal)。两者都安装

Cloudera Manager section hadoop