草庐IT

HADOOP_NAMENODE_OPTS

全部标签

encryption - Hadoop GPG SerDe

我目前正在做一个需要数据加密的Hadoop项目(因为数据会存储在S3中)。虽然我主要希望通过Hive访问数据,但能够通过Pig和任何其他MapReduce方法访问它会很好。我知道Hadoop内置了对gzip、snappy等压缩编解码器的支持...是否也支持加密编解码器(特别是GPG)?有没有人写过公开可用的GPGSerDe(或类似的东西)? 最佳答案 最后我才知道Hadoop没有对加密的任何内部支持。似乎您可以使用GPG代码重载CompressionCodec,alahttp://www.mail-archive.com/commo

hadoop - Hive 从客户端机器加载数据

我正在尝试编写一个独立的java文件,以在Windows机器中使用HiveJDBC连接到hadoopdb,并从本地csv文件加载表数据。我收到错误“语义分析错误:第1:23行无效路径'd:/Sample2.txt':仅接受"file"或“hdfs”文件系统。我正在尝试的是对还是错?我们可以为hadoopdb从客户端windows机器加载数据吗? 最佳答案 我认为你需要使用类似的东西:file:d:/Sample2.txt 关于hadoop-Hive从客户端机器加载数据,我们在StackO

hadoop - 无法使用 Mapreduce 将数据加载到 Htable

我对Hbase和Hadoop很陌生。我对MapReduce概念感到困惑,我想知道MapreduceF/w中的执行流程。我尝试在谷歌上搜索一种方法来从文件中读取数据并使用Put类使用reducer将数据加载到Htable中。我在HDFS中有一个文件,我需要从HbaseMapreducer读取该文件并将数据加载到Htable。谁能告诉我哪里出错了? 最佳答案 您可以在不使用reducer的情况下使用Mapper。由于可以使用reducer进行排序,你只需要将文件数据直接存储到Hbase中即可。

hadoop - 从一台机器到另一台机器执行copyFromLocal命令

我正在执行以下命令:hadoopfs-copyFromLocal/tmp/temp/pattern_BS.confhdfs://wihadoopn301p.prod.ch3.s.com:/user/hdfs/hadoop/qa2/BS/在此,我试图将本地驱动器上/tmp/temp文件夹中的pattern_BS.conf复制到hdfs://wihadoopn301p.prod.ch3.s.com:/user/hdfs/hadoop/qa2/BS/位置。但它给出了以下错误:copyFromLocal:Forinputstring:""Usage:javaFsShell[-copyFromL

ubuntu - 用于多节点 Hadoop 集群的 Windows 7 和 vmware ubuntu 镜像 - IP 地址的配置

我是ubuntu和Hadoop的新手...我的笔记本电脑装有Windows7,它还有一个UbuntuVMWare镜像(我使用VMWare播放器打开)。我的想法是在同一台笔记本电脑上配置多节点hadoop集群。可不可以有两个ubuntu镜像,每个镜像作为一个虚拟机,这样就可以模拟集群配置(虽然不是理想的集群)?如果是这样,这两个虚拟机是否能够通信?我是否必须更改IP配置等才能使其正常工作?VM1(ubuntu)-HadoopmasterVM2(ubuntu)-Hadoopslave作为扩展,windows7有没有可能也加入集群?Windows7-HadoopmasterVM1(ubunt

Hadoop分布式缓存错误信息解读

我正在尝试将3个文件放入分布式缓存中。我以编程方式放置其中一个,使用:DistributedCache.addLocalFiles(conf,"local/path/to/file");我还使用-files选项放置了另外2个文件。在本地以独立模式运行时,一切正常。当试图以伪分布式模式运行它时,我得到了这个错误,我不明白它的意思。我用谷歌搜索但没有成功。Distributedcacheentryarrayshavedifferentlengths有谁知道这意味着什么以及如何解决? 最佳答案 问题源于我正在将本地文件添加到缓存中。相反,

hadoop - 通过 PIG 加载多个 hbase 表限定符

我有一个名为USERS的hbase表,其列族名称为USER_INFO。USER_INFO有两个限定符EMAIL、AGE。当我尝试通过PIG加载单个限定符值时,它成功了。使用命令:R=LOAD'USERS'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('USER_INFO:EMAIL','-loadKey')AS(key:chararray,EMAIL:chararray);dumpR;但我无法使用这两个限定符加载表格。即电子邮件、年龄。我试过这个:S=LOAD'USERS'USINGorg.apache.pig.backen

hadoop 存储目录使用的空间超过 HDFS 上的总数据

我有一个三节点hadoop集群,复制因子=3。存储目录是每个系统的/app/hadoop/tmp/dfs/。每个datanode系统的硬盘容量为221GB。HDFS的有效数据为62GB,复制62*3=186GB。现在的问题是我的存储空间不足,即使我在660GB集群上只有186GB数据:HDFS显示可用空间的巨大差异:datanode1=7.47GBdatanode2=17.7GBdatanode3=143GB为了确保这些空间被hadoop本地存储使用,我在每个数据节点上运行了这个命令。对于数据节点1du-h--max-depth=1/app/hadoop/tmp/63G/app/had

hadoop - 创建一个使用可以返回列名的 UDF 函数的 hiveQL 查询

我想创建一个HiveUDF函数,该函数根据某些值返回特定的列名,例如retreivecol(age)。如果年龄为20,则返回要在选择查询中使用的列名列表,例如“name,email,fbuserid、friend列表等,如果年龄小于20岁,则单独返回“姓名”。所以我希望我的HIVEQL查询看起来像从User_Data中选择retreivecol(age);上面的查询只打印列的名称,如“name、email、fbuserid、friendslist”等,而不是将它们视为列名称并基于相同的名称进行过滤。感谢任何指针。 最佳答案 我不确定

hadoop - 我在哪里可以找到 SVM 在 Hadoop 上的实现?

我在http://code.google.com/p/cascadesvm/中找到了一个实现.但是,没有关于此的规范。有人试过吗?或者我在哪里可以找到SVM在Hadoop上的替代实现?非常感谢~ 最佳答案 看起来有人在Mahout项目中这样做了,不确定它是否已合并到主干中,但这看起来是一个不错的起点:https://issues.apache.org/jira/browse/MAHOUT-232 关于hadoop-我在哪里可以找到SVM在Hadoop上的实现?,我们在StackOverf