草庐IT

hadoop - 如何排除此 Hadoop 文件系统安装错误?

我正在尝试在非ClouderaUbuntu测试镜像上安装Hadoop。在我运行./bin/start-all.sh之前,一切似乎都很顺利.名称节点永远不会出现,所以我什至无法运行hadoopfs-ls连接到文件系统。这是名称节点日志:2011-03-2411:38:00,256INFOorg.apache.hadoop.ipc.Server:Stoppingserveron543102011-03-2411:38:00,257ERRORorg.apache.hadoop.hdfs.server.namenode.NameNode:org.apache.hadoop.hdfs.serve

hadoop - Hbase 中的日志结构化合并树

我正在研究Hbase。我对Hbase如何使用LSM按排序顺序存储数据有疑问。据我了解,Hbase在大规模数据处理中使用LSMTree进行数据传输。当数据来自客户端时,它首先按顺序存储在内存中,然后排序并存储为B-Tree作为存储文件。比它将存储文件与磁盘B树(关键)合并。这是正确的吗?我错过了什么吗?如果是,则在集群环境中。有多个接受客户端请求的RegionServer。在那种情况下,(每个区域服务器的)所有Hlog如何与磁盘B树合并(作为现有key分布在所有数据节点磁盘上)?是不是像Hlog一样只是合并同一个regionServer的Hfile的数据? 最

hadoop - 使用 s3distcp 将文件从 amazon s3 复制到 hdfs 失败

我正在尝试使用EMR中的工作流将文件从s3复制到hdfs,当我运行以下命令时,作业流成功启动但在尝试将文件复制到HDFS时给我一个错误。我需要设置任何输入吗文件权限?命令:./elastic-mapreduce--jobflowj-35D6JOYEDCELA--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar--args'--src,s3://odsh/input/,--dest,hdfs:///Users输出任务TASKID="task_201301310606_0001_r_000000"T

Hadoop HDFS - 缺少副本和复制 block 不足之间的区别

我知道复制不足的block和错误复制的block都是由于相对于复制因子集的数据节点数较少而发生的。但是它们有什么区别呢?在可用数据节点为1的情况下将复制因子重新设置为1,复制不足的block和丢失的副本错误都被清除。通过执行命令hdfsfsck/确保这一点 最佳答案 摘自TomWhite的“Hadoop:权威指南”:Over-replicatedblocksTheseareblocksthatexceedtheirtargetreplicationforthefiletheybelongto.Normally,over-replic

java.lang.IllegalArgumentException : Wrong FS: , 预期:hdfs://localhost:9000

我正在尝试实现reducesidejoin,并使用mapfilereader查找分布式缓存,但在stderr中检查时它没有查找值,它显示以下错误,lookupfile文件已经存在于hdfs中,并且似乎如标准输出所示正确加载到缓存中。java.lang.IllegalArgumentException:WrongFS:file:/app/hadoop/tmp/mapred/local/taskTracker/distcache/-8118663285704962921_-1196516983_170706299/localhost/input/delivery_status/Delive

hadoop - hbase 命名空间/表数据存储在 hdfs 上的什么位置?

hbase在哪里存储命名空间/表的数据文件?我找到了这篇文章:HowHbasewriteitsdataandwhere但我需要一个完整的路径位置,只是为了将权限分离到不同的命名空间。在Hive中,文件位于hive_warehouse_path/database/table/partition中,我正在寻找相同的文件,但在Hbase中。你能帮忙吗?问候帕维尔编辑:顺便说一下,我发现了一个关于HBase文件结构的有趣幻灯片:http://www.slideshare.net/enissoz/hbase-and-hdfs-understanding-filesystem-usage

hadoop - 在配置单元中,有没有办法指定在哪些列之间添加新列?

我可以ALTERTABLEtable_nameADDCOLUMNS(user_idBIGINT)将新列添加到我的非分区列的末尾和我的分区列之前。有什么方法可以在我的非分区列中的任意位置添加新列吗?例如,我想将这个新列user_id作为我表的第一列 最佳答案 是的,可以更改列的位置,但只有在使用CHANGECOLUMN将其添加到表中之后在您的情况下,首先使用以下命令将列user_id添加到表中:ALTERTABLEtable_nameADDCOLUMNS(user_idBIGINT);现在要使user_id列成为表中的第一列,请使用带

hadoop - hdfs mv命令如何工作

我想知道hdfs中的mv命令是如何工作的?这是否只是一个象征性的变化,没有任何实际的数据移动?如果moveTo目录存在(可能在diff分区上)如果moveTo是一个新目录在hadoop中移动大文件时是否可能损坏数据?那么cp或distcp哪个更安全? 最佳答案 当用户调用hdfsdfs-mv时,HDFS保证重命名操作的原子性。运行此命令时,客户端对NameNode进行RPC调用。此RPC的NameNode实现在修改inode树时持有锁,并且仅在重命名完成后释放该锁,无论成功或失败。(它可能会因权限或配额违规等原因而失败。)由于实现完

hadoop - 按现有字段分区 Hive 表?

我可以在插入现有字段时对Hive表进行分区吗?我有一个10GB的文件,其中包含一个日期字段和一个小时字段。我可以将这个文件加载到一个表中,然后插入覆盖到另一个使用这些字段作为分区的分区表中吗?像下面这样的东西会起作用吗?INSERTOVERWRITETABLEtealeaf_eventPARTITION(dt=evt.datestring,hour=evt.hour)SELECT*FROMstaging_eventevt;谢谢!特拉维斯 最佳答案 我刚刚遇到这个问题,试图回答同样的问题,它很有帮助,但还不够完整。简短的回答是肯定的,

R+Hadoop : How to read CSV file from HDFS and execute mapreduce?

在下面的例子中:small.ints=to.dfs(1:1000)mapreduce(input=small.ints,map=function(k,v)cbind(v,v^2))mapreduce函数的数据输入是一个名为small.ints的对象,它引用了HDFS中的block。现在我有一个CSV文件已经存储在HDFS中"hdfs://172.16.1.58:8020/tmp/test_short.csv"如何为它获取一个对象?据我所知(这可能是错误的),如果我想将CSV文件中的数据作为mapreduce的输入,我必须首先在R中生成一个表,其中包含CSV文件中的所有值。我确实有这样的