我是新手。我有一个3节点集群。NameNode、JobTracker和SecondaryNameNode在一个节点中运行,另外两个集群中有两个数据节点(HData1、HData2)。如果我将数据从本地系统存储到HDFS,如何找到它驻留在哪个节点?有没有一种方法可以明确指定它必须存储在哪个数据节点中?提前致谢! 最佳答案 是的,您可以使用hadoopfsck路径找到它您可以引用以下链接howdoeshdfschooseadatanodetostoreHowtoexpliciltydefinedatanodestostoreaparti
我使用带有VMcloudera-quickstart-vm-5.4.2-0-virtualbox的MACOSXYosemite。当我键入“hdfsdfs-puttestfile.txt”将文本文件放入HDFS时,我得到了一个DataStreamer异常。我注意到主要问题是我拥有的节点数为空。我在下面复制了完整的错误消息,我想知道我应该如何解决这个问题。>WARNhdfs.DFSClient:DataStreamer>Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):>File/user/clouder
我有一个简单的java代码可以将一个文本文件从本地复制到hdfs。我正在使用cloudera的quickstart虚拟机。Configurationconf=newConfiguration();conf.addResource(newPath("/etc/hadoop/conf/core-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/hdfs-site.xml"));FileSystemfs=FileSystem.get(conf);fs.copyFromLocalFile(newPath("/home/cloudera
我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我对NamedNode、DataNode、JobTracker、TaskTracker等Hadoop组件以及它们如何协同工作以高效方式存储数据有了很好的理解。在尝试了解Hive等数据访问层的基础知识时,我需要了解表的数据(在Hive中创建)的确切存储位置?我们可以在Hive中创建外部表和内部表。由于外部表可以在HDFS或任何其他文件系统中,因此Hive不会将此类表的数据存储在仓库中。内部表呢?该表将创建为Hadoop集群上其中一个数据节点上的目录。一旦我们从本地或HDFS文件系统
我很清楚如何使用hadoopfs-get.....在unix中如何使用java从amazonaws(HDFS)获取文件?这是一个远程服务器。但我需要以某种方式提供一个(ppk文件)。如何在java中完成?添加到此link的代码. 最佳答案 扩展“sras”已经注意到的内容。您必须使用org.apache.hadoop.fs.FileSystemAPI。可以远程调用该API,以便您可以从远程主机连接到HDFS。下面的stackoverflow问题实际上有一个代码片段和一些关于验证您的请求的详细解释。HDFSaccessfromremo
我正在尝试使用3台名称节点机器、2台数据节点机器和1台客户端机器运行hdfs。当我执行hdfszkfc–formatZK我有下一个fatalerror,我不知道为什么,因为我已经尝试过其他几次集群并且它有效,但现在它不起作用。16/01/2115:05:14INFOzookeeper.ZooKeeper:Session:0x25264b6c3d90000closed16/01/2115:05:14WARNha.ActiveStandbyElector:IgnoringstaleresultfromoldclientwithsessionId0x25264b6c3d9000016/01/
我在Windows命令行上工作,因为Unix和防火墙的问题阻止gsutil工作。我可以读取我的GoogleCloudStorage文件并将它们复制到其他存储桶(我不需要这样做)。我想知道的是如何将它们直接下载到HDFS(我正在“进入”)?有没有人这样做过?理想情况下,这是第一部分,第二部分是为GoogleCloudStorage数据创建Hive表,以便我们可以使用HiveQL和Pig。 最佳答案 您可以使用GoogleCloudStorageconnector它为您在GoogleCloudStorage中的数据提供了一个HDFS-A
如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录?说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等 最佳答案 我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取,我们在StackOver
我正在尝试在hdfshadoop文件系统中创建一个文件夹,但它不允许我使用用户cloudera或root创建文件夹。我应该配置什么以使其允许我使用hier是我的尝试:[cloudera@quickstart~]$sudohadoopfs-mkdir/solr/test_coremkdir:Permissiondenied:user=root,access=WRITE,inode="/solr":solr:supergroup:drwxr-xr-x[cloudera@quickstart~]$suPassword:[root@quickstartcloudera]#hadoopfs-mk
假设我的hdfs文件系统中有以下层次结构Dir1->Dir2->File1如果我将名为File2的文件添加到/Dir1/Dir2,Dir1和Dir2的访问和修改时间是否会发生变化?一般来说,这两个值什么时候改变?还有如何通过HadoopJavaAPI访问这两个值?谢谢你的回答 最佳答案 Dir2的时间戳改变了,但Dir1没有。只有直接目录时间戳发生变化。您可以在Java中使用以下代码获取时间戳:FileSystemfs=FileSystem.get(URI.create(uri),conf);longmoddificationTim