草庐IT

CLOUDERA

全部标签

hadoop - 人类可读格式的cloudera hadoop集群上的剩余空间

我正在寻找一个命令来显示hadoop集群上剩余空间的人类可读形式。我在这个论坛上找到了一个命令,输出在图像中。hdfsdfsadmin-报告[dfsadmin命令的输出][1]我听说hortonworks中还有另一个命令可以提供更易读的输出。该命令是hdfsdfsadmin-report该命令似乎不适用于cloudera。cloudera中是否有任何等效命令?非常感谢 最佳答案 不管您使用的是Cloudera还是Hortonworks。如果您使用的是旧版本的hadoop,则命令可能是hadoopdfsadmin-report。您还有

xml - 如何使用 StreamXmlRecordReader 解析单个文件中的单行和多行 xml 记录

我有一个输入文件(txt)如下val1||val2||val3||val4-c-1val4-c-2val-d-1如果仔细观察输入,第三个'||'后面的xml数据记录分为两行。我想用hadoopstreaming的StreamXmlRecordReader来解析这个文件-inputreader"org.apache.hadoop.streaming.StreamXmlRecordReader,begin=,end=,slowmatch=true我无法解析第三条记录。我收到以下错误Traceback(mostrecentcalllast):File"/home/rsome/test/cod

hadoop - 如何使用数据上的某些键将 HDFS 文件拆分为多个目录

我有一个包含以下示例数据的HDFS文件idnametimestamp1Lorem2013-01-012Ipsum2013-02-013Ipsum2013-03-01现在我想以/data/YYYY/MM/DD格式将数据拆分到多个目录中,例如记录1转到目录/data/2016/01/01.pig中有MultiStorageUDF,可以按年、月或日拆分为单个目录。有什么办法可以分成多个目录吗? 最佳答案 您可以从这三种方法中进行选择:您可以编写shell脚本来完成此任务你可以用partition-er类编写mapreduce作业您可以创建

hadoop - 子查询中的子查询在配置单元中不起作用

我有一个复杂的查询,我在这里给出了它的简化版本。想知道为什么它不起作用。select*from((select1)t1union(select2)t2);出现以下错误NoViableAltException(290@[147:5:((IdentifierLPAREN)=>partitionedTableFunction|tableSource|subQuerySource|virtualTableSource)])atorg.antlr.runtime.DFA.noViableAlt(DFA.java:158)atorg.antlr.runtime.DFA.predict(DFA.ja

hadoop - 如果 Impala 查询内存不足会怎样?

如果Impala查询内存不足会发生什么:Impala守护进程是否崩溃?它会写入磁盘吗?详细的解释会有所帮助! 最佳答案 这取决于Impala的版本及其配置方式。一般来说,Impala会在内存不足时终止查询。有一个进程范围的内存限制,此时任何请求内存的查询都将被终止。还有另一个可选的、每个查询的内存限制。Impala2.0及更高版本支持“溢出”大型连接和聚合运算符,这有助于避免这些内存不足的情况。 关于hadoop-如果Impala查询内存不足会怎样?,我们在StackOverflow上找

hadoop - 在 HDFS 中创建文件但不附加任何内容

我正在使用HTTP源将JSON文件放入HDFS(单节点SANDBOX)。文件在正确的目录中创建,但没有任何内容附加到文件中。在我开始调试HTTP源之前,你能验证我的flume.conf吗?##################################################################Namethecomponentsonthisagent#################################################################hdfs-agent.sources=httpsourcehdfs-agent.sin

hadoop - 配置单元 : The application won't work without a running HiveServer2

我是这个领域的新手。我正在检查CDH5.8快速启动VM以尝试一些基本的hive/impala示例。但是我遇到了一个问题,当我打开HUE时出现以下错误。我搜索了解决方案,但没有找到任何可以解决我的问题的方法。Configurationfileslocatedin/etc/hue/conf.emptyPotentialmisconfigurationdetected.FixandrestartHue.HiveTheapplicationwon'tworkwithoutarunningHiveServer2.我检查过,它已启动并正在运行。尝试重新启动服务和CDH,没有帮助。HiveServe

hadoop - 如何在 Ubuntu (12.0.4)-32 位上安装 cloudera manager

我有一个32位的Ubuntu版本,似乎最新的ClouderaManager只支持64位。有没有人在Ubuntu(12.0.4)32位上安装了CDH4和云时代管理器?。你能不能让我知道怎么做。 最佳答案 我相信32位Ubuntu不支持CDH4。32位RHEL6.2支持32位 关于hadoop-如何在Ubuntu(12.0.4)-32位上安装clouderamanager,我们在StackOverflow上找到一个类似的问题: https://stackoverf

hadoop - 为什么 Raid 不在 Hadoop 2.x 中?

在0.22.0版本中我们可以找到raidcontrib,但是Hadoop2ndgeneration(version2.x)似乎不再支持hdfs-raid了,请问是什么原因呢? 最佳答案 Hadoop有自己的复制和检查机制。以下引自AlexHolme的HadoopInPracticeUsingRAID,however,isstronglydiscouragedontheDataNodes,becauseHDFSalreadyhasreplicationanderror-checkingbuilt-in;butontheNameNode

hadoop - 如何使用安装在 EC2 上的 Cloudera Manager 4.0 解析主机

任何人都可以提供ClouderaManager4.1免费版帮助说明在EC2中解析主机吗?我在EC2m1.large实例上安装了ClouderaManager4.1免费版。当我使用外部主机名(dn1.example.com)搜索主机时,它会正确显示并正确安装软件包。但是,经过检查,它没有出现。唯一出现的服务器是安装ClouderaManager的服务器(ip-#-#-#-136.ec2.internal)。我什至尝试在主机搜索中使用dn1的其他主机名(ec2-#-#-#-47.compute-1.amazonaws.com、ip-#-#-#-152.ec2.internal)。两者都安装