草庐IT

CLOUDERA

全部标签

hadoop - 命令用法 :when to use hadoop fs and hdfs dfs

正如标题所说,我很困惑何时使用以“hdfsdfs”和“hadoopfs”开头的命令仅供引用,我是使用cloudera4.6quickstartvm的hadoop新手。 最佳答案 下面是三个看似相同但有细微差别的命令hadoopfs{args}hadoopdfs{args}hdfsdfs{args}hadoopfsFS与通用文件系统相关,它可以指向任何文件系统,如本地、HDFS等。因此,当您处理不同的文件系统(如LocalFS、HFTPFS、S3FS等)时,可以使用它hadoopdfsdfs非常特定于HDFS。将适用于与HDFS相关的

hadoop - 将 HUE 界面语言设置/强制为英语(Hadoop/Cloudera)

由于某种原因,当我从我的机器访问它时,hue界面语言是德语。(德语语言设置,但英语浏览器和操作系统)如何强制hue始终显示英文? 最佳答案 Hue正在采用您的浏览器发送的首选语言环境。您浏览器中的德语语言环境可能设置为比英语语言环境更高的优先级。Thisarticle说明您可以在哪里更改它。 关于hadoop-将HUE界面语言设置/强制为英语(Hadoop/Cloudera),我们在StackOverflow上找到一个类似的问题: https://stacko

hadoop - Cloudera安装疑惑?

我是cloudera的新手,我在我的系统中成功安装了cloudera我有两个疑问,考虑一台机器的一些节点已经使用hadoop处理一些数据,我们可以安装Cloudera以使用现有的Hadoop而不对现有hadoop存储的数据进行任何更改或修改。我在我的机器上安装了Cloudera,我还有另外三台机器可以将它们添加为集群,我想知道,在将这些机器添加为集群之前,我是否要在这三台机器上安装cloudera?,或者我们可以添加一个节点作为集群而不在那个特定节点上安装cloudera?。在此先感谢任何人,请提供有关上述问题的一些信息。 最佳答案

hadoop - 在 PIG 中添加重复列

我有这样一些值(value)观,tEn1teN8Ten1thrEE2tHRee1如何添加第2列并为第1列中的所有不区分大小写的重复项生成此列?ten10three3我试过使用GROUP,tmp=GROUPdataBY(column1);result=FOREACHtmpGENERATEgroup,SUM(data.column2)ascount但不知何故,它似​​乎没有给出正确的结果。我该怎么办? 最佳答案 字符串区分大小写。您需要先将它们全部设为小写,以便它们匹配lowerdata=FOREACHdataGENERATELOWER

hadoop - 克伯罗斯 |云时代 | Krb异常 : Encryption type AES256 CTS mode with HMAC SHA1-96

我一直在尝试为CDH4.5设置Kerberos,这是使用ClouderaManager安装程序设置的。说明来自以下链接:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.5.2/Configuring-Hadoop-Security-with-Cloudera-Manager/cmeechs_topic_4.html设置和KDC后,我将Java6文件的JCE策略复制到以下位置:/usr/java/jdk1.6.0_31/lib/security/以下是我的“/var/kerberos/krb5

两个安全(kerberos)集群之间的 Hadoop distcp

我有两个Hadoop集群,并且都运行相同的Hadoop版本。我在两个集群中都有一个用户“testuser”(示例)(因此两个集群中都存在testuserkeytabs)。Namenode#1(sourcecluster):hdfs://nn1:8020Namenode#2(destcluster):hdfs://nn2:8020我想使用hadoopdistcp将一些文件从一个集群复制到另一个集群。示例:在源集群中,我有一个路径为“/user/testuser/temp/file-r-0000”的文件,在目标集群中,目标目录为“/user/testuser/dest/”。所以我想要的是将

xml - 可以将 HCatalog 与 XML 一起使用吗? -- 在 Cloudera VM 上执行 ETL

我正在处理一个大数据类的项目,我已经在本地安装了ClouderaQuickstartVM以在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程,其中涉及将数据集移动到HDFS,基于数据集文件创建一个HCatalog表,然后在该表上运行Hive和/或Pig命令。问题是我的数据是一个大的XML文件,HCatalog中的标准分隔符选项不适用。有没有办法将XML导入HCatalog?如果不是,在我的XML数据集上使用Hive或Pig的最佳方法是什么?编辑:我的文件来自公共(public)StackOverflow数据集。我正在使用posts.xml文件。它非常大(25GB),我无法

hadoop - "Doesn' t 存在于 RM"Pig 后端错误

我在从http://www.cloudera.com/content/cloudera-content/cloudera-docs/DemoVMs/Cloudera-QuickStart-VM/cloudera_quickstart_vm.html下载的ClouderaQuickStartVM中遇到错误.我正在尝试TomWhite的Hadoop:权威指南中的玩具示例,名为map_temp.pig,它“按年份查找最高温度”。我创建了一个名为temps.txt的文件,其中每一行都包含(年份、温度、质量)条目:19500119502211950-11119491111使用书中的示例代码,我在

hadoop - 如何在 Cloudera 的 Cassandra 中启用节俭?

enterimagedescriptionhere我是Cassandra和cloudera编程的新手。我有错误“没有按要求启动RPC服务器,使用JMX(存储服务->启动rpc或nodetool(enablethrift)来启动它”。我从几个小时开始就在尝试启用盗窃使用nodetool但徒劳无功。我在Cassandra位置找到了一个文件“Enablethrift.html”,但我不知道该怎么做。请帮忙 最佳答案 更改cassandra.yaml:start_rpc:false到start_rpc:true

hadoop - 从表名中删除 Cloudera Impala

我是Impala的新手,我正在尝试了解如何从表中删除记录...我试过寻找删除命令,但没有找到完全可以理解的说明...这是我的表结构:createtableInstalls(BrandIDINT,PublisherIDINT,InstallDateSTRING,HourNumINT,CountrySTRING,InstallsINT)PARTITIONEDBY(dayINT,monthINT,yearINT)STOREDASPARQUET在Hadoop中可以删除吗?语法是如何工作的?任何帮助对我来说都是一个很大的帮助...谢谢:) 最佳答案