hdfs_clusters

hadoop - 数据存储在 HDFS 中的什么位置？有没有办法改变它的存储位置？

我是新手。我有一个3节点集群。NameNode、JobTracker和SecondaryNameNode在一个节点中运行，另外两个集群中有两个数据节点(HData1、HData2)。如果我将数据从本地系统存储到HDFS，如何找到它驻留在哪个节点？有没有一种方法可以明确指定它必须存储在哪个数据节点中？提前致谢! 最佳答案是的，您可以使用hadoopfsck路径找到它您可以引用以下链接howdoeshdfschooseadatanodetostoreHowtoexpliciltydefinedatanodestostoreaparti

java - Cloudera:在 HDFS 异常中上传文件

我使用带有VMcloudera-quickstart-vm-5.4.2-0-virtualbox的MACOSXYosemite。当我键入“hdfsdfs-puttestfile.txt”将文本文件放入HDFS时，我得到了一个DataStreamer异常。我注意到主要问题是我拥有的节点数为空。我在下面复制了完整的错误消息，我想知道我应该如何解决这个问题。>WARNhdfs.DFSClient:DataStreamer>Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):>File/user/clouder

中上 Cloudera hadoop java apache hdfs

java - Cloudera Quickstart VM illegalArguementException : Wrong FS: hdfs: expected: file:

我有一个简单的java代码可以将一个文本文件从本地复制到hdfs。我正在使用cloudera的quickstart虚拟机。Configurationconf=newConfiguration();conf.addResource(newPath("/etc/hadoop/conf/core-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/hdfs-site.xml"));FileSystemfs=FileSystem.get(conf);fs.copyFromLocalFile(newPath("/home/cloudera

illegalArguementException Quickstart hadoop cloudera FileSystem java eclipse cloudera-quickstart-vm

hadoop - Hive 如何存储数据(从 HDFS 加载)？

我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我对NamedNode、DataNode、JobTracker、TaskTracker等Hadoop组件以及它们如何协同工作以高效方式存储数据有了很好的理解。在尝试了解Hive等数据访问层的基础知识时，我需要了解表的数据(在Hive中创建)的确切存储位置？我们可以在Hive中创建外部表和内部表。由于外部表可以在HDFS或任何其他文件系统中，因此Hive不会将此类表的数据存储在仓库中。内部表呢？该表将创建为Hadoop集群上其中一个数据节点上的目录。一旦我们从本地或HDFS文件系统

hadoop Hive 中创 section hbase hdfs bigdata

java - 如何从亚马逊 EMR HDFS 远程读取(或任何其他 hadoop 远程服务器)

我很清楚如何使用hadoopfs-get.....在unix中如何使用java从amazonaws(HDFS)获取文件？这是一个远程服务器。但我需要以某种方式提供一个(ppk文件)。如何在java中完成？添加到此link的代码. 最佳答案扩展“sras”已经注意到的内容。您必须使用org.apache.hadoop.fs.FileSystemAPI。可以远程调用该API，以便您可以从远程主机连接到HDFS。下面的stackoverflow问题实际上有一个代码片段和一些关于验证您的请求的详细解释。HDFSaccessfromremo

hadoop java section stackoverflow amazon-web-services hdfs

javascript - 执行hdfs zkfc命令时出错

我正在尝试使用3台名称节点机器、2台数据节点机器和1台客户端机器运行hdfs。当我执行hdfszkfc–formatZK我有下一个fatalerror，我不知道为什么，因为我已经尝试过其他几次集群并且它有效，但现在它不起作用。16/01/2115:05:14INFOzookeeper.ZooKeeper:Session:0x25264b6c3d90000closed16/01/2115:05:14WARNha.ActiveStandbyElector:IgnoringstaleresultfromoldclientwithsessionId0x25264b6c3d9000016/01/

时出 javascript gt lt property hadoop hdfs apache-zookeeper

hadoop - 从谷歌云存储直接下载文件到 HDFS 和 Hive 表

我在Windows命令行上工作，因为Unix和防火墙的问题阻止gsutil工作。我可以读取我的GoogleCloudStorage文件并将它们复制到其他存储桶(我不需要这样做)。我想知道的是如何将它们直接下载到HDFS(我正在“进入”)？有没有人这样做过？理想情况下，这是第一部分，第二部分是为GoogleCloudStorage数据创建Hive表，以便我们可以使用HiveQL和Pig。最佳答案您可以使用GoogleCloudStorageconnector它为您在GoogleCloudStorage中的数据提供了一个HDFS-A

歌云 hadoop section Storage Google hive hdfs google-cloud-storage

hadoop - 根据 Kafka 的消息数据写入自定义 HDFS 目录 -> Flume -> hdfs 摄取

如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录？说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等最佳答案我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取，我们在StackOver

自定摄取 section code hadoop apache-kafka flume

hadoop - Cloudera 用户不允许在 hadoop 上操作 hdfs 系统

我正在尝试在hdfshadoop文件系统中创建一个文件夹，但它不允许我使用用户cloudera或root创建文件夹。我应该配置什么以使其允许我使用hier是我的尝试:[cloudera@quickstart~]$sudohadoopfs-mkdir/solr/test_coremkdir:Permissiondenied:user=root,access=WRITE,inode="/solr":solr:supergroup:drwxr-xr-x[cloudera@quickstart~]$suPassword:[root@quickstartcloudera]#hadoopfs-mk

上操 hadoop section cloudera solr

hadoop - hdfs什么时候改变目录的访问时间和修改时间？

假设我的hdfs文件系统中有以下层次结构Dir1->Dir2->File1如果我将名为File2的文件添加到/Dir1/Dir2，Dir1和Dir2的访问和修改时间是否会发生变化？一般来说，这两个值什么时候改变？还有如何通过HadoopJavaAPI访问这两个值？谢谢你的回答最佳答案 Dir2的时间戳改变了，但Dir1没有。只有直接目录时间戳发生变化。您可以在Java中使用以下代码获取时间戳:FileSystemfs=FileSystem.get(URI.create(uri),conf);longmoddificationTim

hadoop hdfs section code Dir

25 26 272829 30 31