hdfs_clusters_草庐IT

hadoop - 如何使用 JAVA API 在 HDFS 中移动或复制文件

我想在同一个HDFS中复制文件，就像从HDFS://abc:9000/user/a.txt复制文件到HDFS://abc:9000/user/123/我可以使用JAVAAPI来实现吗？谢谢最佳答案 FileUtil提供复制文件的方法。Configurationconfiguration=newConfiguration();configuration.set("fs.defaultFS","hdfs://abc:9000");FileSystemfilesystem=FileSystem.get(configuration);Fi

索引 HDFS 序列文件

索引非常大的序列文件(数百万个键/值对，其中每个值的长度可能不同，因此您不能使用随机访问方案)的最佳库/方法是什么？最佳答案您是否考虑过将数据存储在HBase中？它就是为这种事情而建的。关于索引HDFS序列文件，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/6537435/

HDFS 索引 section stackoverflow questions indexing hadoop sequence

hadoop - org.apache.hadoop.hdfs.server.common.InconsistentFSStateException : Directory/tmp/hadoop/dfs/name is in an inconsistent state

我正在运行单节点。NameNode总是在启动集群时开始失败。我收到以下错误。2013-06-2910:37:29,968FATALorg.apache.hadoop.hdfs.server.namenode.NameNode:Exceptioninnamenodejoinorg.apache.hadoop.hdfs.server.common.InconsistentFSStateException:Directory/tmp/hadoop/dfs/nameisinaninconsistentstate:storagedirectorydoesnotexistorisnotaccess

hadoop InconsistentFSStateException NameNode

hadoop - CDH5 hdfs 平衡器错误

运行“hdfsbalancer”，我确实看到它显示了安装的机架拓扑、过度使用和未充分使用的节点，它说“需要移动5TB以使集群平衡”和“决定从10.150移动10GB字节.11.24:50010到10.150.11.164:50010"然后我看到这个错误，WARNbalancer.Balancer:Dispatcherthreadfailedjava.lang.NullPointerExceptionatorg.apache.hadoop.hdfs.server.balancer.Balancer.isGoodBlockCandidate(Balancer.java:1233)atorg

平衡器 hadoop apache Balancer cloudera cloudera-cdh

hadoop - HDFS 性能差 : "Slow BlockReceiver write packet to mirror"

我想在新硬件堆栈上实例化另一个新Hadoop集群时提交一个奇怪的行为。一旦一切都安装好了，只要我们尝试在HDFS上执行任何I/O操作，我们就可以在数据节点日志中看到许多这样的消息:15/01/1422:13:07WARNdatanode.DataNode:SlowBlockReceiverwritepackettomirrortook6339ms(threshold=300ms)15/01/1422:13:26INFODataNode.clienttrace:src:/10.10.5.7:17276,dest:/10.10.5.4:50010,bytes:176285,op:HDFS_

BlockReceiver amp code section li hadoop io hdfs

r - sparkR hdfs 错误 - 服务器 IPC 版本 9 无法与客户端版本 4 通信

我已经在Ubuntu中安装了sparkR以支持Hadoop版本2.4.0，按照说明here.我可以看到在以下位置./assembly/target/scala-2.10/spark-assembly-1.0.0-SNAPSHOT-hadoop2创建了带有Hadoop2.4.0和YARN支持的Spark程序集JAR.4.0.jar.下面从本地读取文件的R代码工作正常:library(SparkR)sc但是，当我尝试从hdfs读取文件时出现错误。library(SparkR)sc错误:Errorin.jcall(getJRDD(rdd),"Ljava/util/List;","collec

sparkR hdfs section code r hadoop apache-spark

hadoop - HDFS:FileSystem.exists(path) 在现有资源上返回 false？

我在本地运行的HadoopHDFS(我的工作站是名称/数据节点)中遇到文件访问困难。在我的HDFS中，我有一个位于文件夹"/huser/data.txt"中的文件我可以用hdfsdfs-ls/huser确认该文件存在。我通过调用FileSystem.get(uri,config)创建文件系统，uri是hdfs://localhost:9000如果我调用org.apache.hadoop.fs.FileSystem的exist方法，我总是得到一个false作为返回值。我尝试了各种参数组合，但我想知道我做错了什么:fs.exists(newPath("hdfs:/huser/data.tx

FileSystem hadoop code section huser filesystems hdfs

hadoop - 将 Solr HDFS 数据复制到另一个集群

我有一个solr云(v4.10)安装，它位于Cloudera(CDH5.4.2)HDFS之上，具有3个solr实例，每个实例托管每个核心的一个碎片。我正在寻找一种将solr数据从我们的生产集群增量复制到我们的开发集群的方法。有3个核心，但我只对复制其中一个感兴趣。我曾尝试使用Solr复制-备份和恢复，但它似乎没有将任何内容加载到开发集群中。http://host:8983/solr/core/replication?command=backup&location=/solr_transfer&name=core-namehttp://host:8983/solr/core/replic

hadoop Solr code section hdfs cloudera

python - 使用 python 脚本从 hdfs (hadoop) 目录获取文件列表

如何使用python脚本从hdfs(hadoop)目录获取文件列表？我试过以下行:dir=sc.textFile("hdfs://127.0.0.1:1900/directory").collect()目录有文件列表“file1,file2,file3....fileN”。通过使用这条线，我只得到了所有的内容列表。但我需要获取文件名列表。谁能帮我找出这个问题？提前致谢。最佳答案使用子进程importsubprocessp=subprocess.Popen("hdfsdfs-ls|awk'{print$8}'",shell=Tru

python hadoop section subprocess hdfs file python-2.7 directory

hadoop - 将数据从 Rest API 加载到 HDFS

我有一个restapi的URLexample:`www./?apikey=1344&host=microsoft.com&records=10`example:`www./?apikey=1344&host=timesofindia.com&records=10`参数可以改变我从另一个文件中获取这些参数，该文件也是JSON格式["microsoft.com","cde.com","timesofindia.com"]我可以使用flume加载这些数据吗，如果可以，请告知可以使用哪种源类型以及如何使用。如果不是，请建议替代方案。最佳答案

hadoop Rest section com code flume