HDFS_DATANODE

Hadoop:是否可以以非 hdfs 用户身份运行 TestDFSIO 基准测试

是否可以以非hdfs用户身份执行TestDFSIO基准测试？此基准测试试图创建一个/benchmarks目录，但由于缺少权限而失败。有没有办法让这个基准测试使用我的hdfshome来存储数据？最佳答案应该可以通过设置配置参数“test.build.data”来实现，默认为“/benchmarks/TestDFSIO”。(参见:https://github.com/apache/hadoop/blob/release-2.6.0/hadoop-mapreduce-project/hadoop-mapreduce-client/ha

hadoop - 如果输入数据源在 HDFS 中不断增加，MapReduce 作业会发生什么情况？

我们有一个与HDFS一起运行的日志收集代理，即代理(如Flume)不断收集一些应用程序的日志，然后写入HDFS。读写过程不停地运行，导致HDFS的目标文件不断增加。这里的问题是，由于输入数据不断变化，如果我将收集代理的目标路径设置为作业的输入路径，MapReduce作业会发生什么情况？FileInputFormat.addInputPath(job,newPath("hdfs://namenode:9000/data/collect")); 最佳答案 map-reduce作业仅处理开始时可用的数据。Map-Reduce用于批量数据处

MapReduce hadoop section noreferrer https

hadoop - 数据存储在 HDFS 中的什么位置？有没有办法改变它的存储位置？

我是新手。我有一个3节点集群。NameNode、JobTracker和SecondaryNameNode在一个节点中运行，另外两个集群中有两个数据节点(HData1、HData2)。如果我将数据从本地系统存储到HDFS，如何找到它驻留在哪个节点？有没有一种方法可以明确指定它必须存储在哪个数据节点中？提前致谢! 最佳答案是的，您可以使用hadoopfsck路径找到它您可以引用以下链接howdoeshdfschooseadatanodetostoreHowtoexpliciltydefinedatanodestostoreaparti

hadoop HDFS section stackoverflow questions

java - Cloudera:在 HDFS 异常中上传文件

我使用带有VMcloudera-quickstart-vm-5.4.2-0-virtualbox的MACOSXYosemite。当我键入“hdfsdfs-puttestfile.txt”将文本文件放入HDFS时，我得到了一个DataStreamer异常。我注意到主要问题是我拥有的节点数为空。我在下面复制了完整的错误消息，我想知道我应该如何解决这个问题。>WARNhdfs.DFSClient:DataStreamer>Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):>File/user/clouder

中上 Cloudera hadoop java apache hdfs

java - Cloudera Quickstart VM illegalArguementException : Wrong FS: hdfs: expected: file:

我有一个简单的java代码可以将一个文本文件从本地复制到hdfs。我正在使用cloudera的quickstart虚拟机。Configurationconf=newConfiguration();conf.addResource(newPath("/etc/hadoop/conf/core-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/hdfs-site.xml"));FileSystemfs=FileSystem.get(conf);fs.copyFromLocalFile(newPath("/home/cloudera

illegalArguementException Quickstart hadoop cloudera FileSystem java eclipse cloudera-quickstart-vm

hadoop - Hive 如何存储数据(从 HDFS 加载)？

我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我对NamedNode、DataNode、JobTracker、TaskTracker等Hadoop组件以及它们如何协同工作以高效方式存储数据有了很好的理解。在尝试了解Hive等数据访问层的基础知识时，我需要了解表的数据(在Hive中创建)的确切存储位置？我们可以在Hive中创建外部表和内部表。由于外部表可以在HDFS或任何其他文件系统中，因此Hive不会将此类表的数据存储在仓库中。内部表呢？该表将创建为Hadoop集群上其中一个数据节点上的目录。一旦我们从本地或HDFS文件系统

hadoop Hive 中创 section hbase hdfs bigdata

java - 如何从亚马逊 EMR HDFS 远程读取(或任何其他 hadoop 远程服务器)

我很清楚如何使用hadoopfs-get.....在unix中如何使用java从amazonaws(HDFS)获取文件？这是一个远程服务器。但我需要以某种方式提供一个(ppk文件)。如何在java中完成？添加到此link的代码. 最佳答案扩展“sras”已经注意到的内容。您必须使用org.apache.hadoop.fs.FileSystemAPI。可以远程调用该API，以便您可以从远程主机连接到HDFS。下面的stackoverflow问题实际上有一个代码片段和一些关于验证您的请求的详细解释。HDFSaccessfromremo

hadoop java section stackoverflow amazon-web-services hdfs

javascript - 执行hdfs zkfc命令时出错

我正在尝试使用3台名称节点机器、2台数据节点机器和1台客户端机器运行hdfs。当我执行hdfszkfc–formatZK我有下一个fatalerror，我不知道为什么，因为我已经尝试过其他几次集群并且它有效，但现在它不起作用。16/01/2115:05:14INFOzookeeper.ZooKeeper:Session:0x25264b6c3d90000closed16/01/2115:05:14WARNha.ActiveStandbyElector:IgnoringstaleresultfromoldclientwithsessionId0x25264b6c3d9000016/01/

时出 javascript gt lt property hadoop hdfs apache-zookeeper

hadoop - 从谷歌云存储直接下载文件到 HDFS 和 Hive 表

我在Windows命令行上工作，因为Unix和防火墙的问题阻止gsutil工作。我可以读取我的GoogleCloudStorage文件并将它们复制到其他存储桶(我不需要这样做)。我想知道的是如何将它们直接下载到HDFS(我正在“进入”)？有没有人这样做过？理想情况下，这是第一部分，第二部分是为GoogleCloudStorage数据创建Hive表，以便我们可以使用HiveQL和Pig。最佳答案您可以使用GoogleCloudStorageconnector它为您在GoogleCloudStorage中的数据提供了一个HDFS-A

歌云 hadoop section Storage Google hive hdfs google-cloud-storage

hadoop - 根据 Kafka 的消息数据写入自定义 HDFS 目录 -> Flume -> hdfs 摄取

如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录？说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等最佳答案我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取，我们在StackOver

自定摄取 section code hadoop apache-kafka flume

23 24 252627 28 29