hdfs_草庐IT

hadoop - 在 HDFS Federation 中，我可以创建一个额外的名称节点作为所有名称节点的备用名称节点的设置吗？

在HDFSFederation中，我了解到每个拥有一个namespace的namenode都需要一个namenode作为standbynamenode。这意味着如果我有10个名称节点，那么我应该有10个备用名称节点。是否有可能有一个额外的名称节点作为所有名称节点的备用名称节点，以便如果其中一个名称节点出现故障，那么备用名称节点将成为事件名称节点，就像在RAID5中使用的一个额外硬盘的情况一样最佳答案不，这是不可能的，因为HDFS联合中的每个名称节点都将具有单独的namespace，并且每个namespace都需要单独且单独的备用

hadoop - 如何使用水槽从大型机文件中提取数据到hadoop HDFS

我正在使用clouderaCDH5，并且需要使用flume将数据从大型机文件提取到hadoophdfs。有人可以帮助我需要注意哪些步骤.. 最佳答案您确定需要Flume吗？Sqoop1.4.5现在有一个大型机连接器，可能更适合开箱即用。关于hadoop-如何使用水槽从大型机文件中提取数据到hadoopHDFS，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/26626052/

大型机 hadoop section 大型 apache-pig cloudera flume cloudera-cdh

java - 使用水槽反序列化Json文件并下沉到HDFS

我有一个所有json文件都存在的假脱机目录，传入的文件将每秒添加到此目录中，我必须反序列化传入的json文件并获取需要的字段并将其附加到HDFS目录中。我所做的是创建了一个flumeconf文件，其中将假脱机目录中的文件作为源，并使用1个Sink将json文件直接放入HDFS。我必须在Sink之前将这个json做成结构格式，然后放到HDFS中。最重要的是，它不是推特数据。而且我必须实现纯粹的Flume。我使用下面的水槽配置来完成工作:agent_slave_1.channels.fileChannel1_1.type=fileagent_slave_1.channels.fileCha

水槽下沉 agent_slave agent slave java json hadoop flume flume-ng

hadoop - 租期过期异常 : No lease error on HDFS (Failed to close file)

我正在尝试将大数据加载到HIVE中的动态分区表中。我一直收到这个错误。如果我在没有分区的情况下加载数据，它工作正常。如果我使用较小的数据集(带分区)，它也能正常工作。但是对于大型数据集，我开始收到此错误错误:2014-11-1009:28:01,112ERRORorg.apache.hadoop.hdfs.DFSClient:Failedtoclosefile/tmp/hive-username/hive_2014-11-10_09-25-26_785_2042278847834453465/_task_tmp.-ext-10002/pseudo_element_id=NN%09/_t

hadoop Failed apache java hive hdfs

hadoop - hadoop 存储文件的位置，以便以编程方式通过 HDFS 进行读写

我在我的机器上使用伪分布模式设置并在我的eclipseIDE中创建了以下程序:这个程序只是将输入文件合并到HDFS中的单个文件。importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSys

hadoop HDFS code FileSystem

hadoop - 如何实现Apache Storm监控HDFS目录

我有一个HDFS目录，其中的文件将从许多来源连续复制(流式传输)。如何构建用于监控HDFS目录的拓扑结构，即无论何时在该目录中创建新文件，都应该对其进行处理。最佳答案您希望监控HDFS文件/目录更改。看看这个问题，它指向Oozie和HBase中的现有支持:HowtoknowthatanewdataisbeenaddedtoHDFS?当这些工具检测到新文件时，您可以将项目发送到拓扑中进行处理。或者你可以在storm中编写自己的自定义逻辑，定期列出并检查是否有新文件添加到HDFS中。查看Storm中的刻度元组支持。

hadoop Apache section HDFS stackoverflow apache-storm

hadoop - 一个包含 HDFS 和 MapReduce 的文件数据库

假设我想存储大量带有相关元数据的urlURL=>Metadata在文件中hdfs://db/urls.seq我希望这个文件在每次运行MapReduce后增长(如果找到新的URL)。这可以与Hadoop一起使用吗？据我了解，MapReduce将数据输出到新目录。有没有办法获取该输出并将其附加到文件中？我想到的唯一想法是创建一个临时的urls.seq然后替换旧的。它有效，但感觉很浪费。另外，根据我的理解，Hadoop喜欢“一次编写”的方法，而这个想法似乎与此冲突。最佳答案作为blackSmith已经解释说你可以很容易地在hdfs中附

MapReduce hadoop section stackoverflow hdfs

hadoop - 是否有 HDFS 客户端有线协议(protocol)规范？

我有兴趣找出为HDFS客户端定义的有线协议(protocol)。我能找到的只是各种HDFS客户端绑定(bind)的源代码。如果有人可以指出协议(protocol)规范，我们将不胜感激。谢谢。最佳答案从Hadoop0.23+开始，所有协议(protocol)都切换到了ProtocolBuffers。可以找到HDFS协议(protocol)定义here.还有一个WebHDFS向HDFS添加REST接口(interface)的实现。但是，IIRC，像Horotonworks和Cloudera这样的大供应商还不推荐使用它。

protocol hadoop section client protocols hdfs

mysql - Apache Drill - 查询 HDFS 和 SQL

我正在尝试探索ApacheDrill。我不是数据分析师，只是基础设施支持人员。我看到关于ApacheDrill的文档太有限了我需要一些关于可与ApacheDrill一起使用的自定义数据存储的详细信息是否可以像dfs一样使用ApacheDrill在没有Hive的情况下查询HDFS是否可以查询像MySQL和MicrosoftSQL这样的旧RDBMS提前致谢更新:我的HDFS存储防御说错误(无效的JSON映射){"type":"file","enabled":true,"connection":"hdfs:///","workspaces":{"root":{"location":"/","

Apache mysql 34 section Drill hadoop hdfs apache-drill

file - java eclipse hadoop map reduce程序无法访问我存储在hdfs中的文件

我的javaeclipsehadoopmapreduce程序显示无法定位输入文件的错误。我已经使用hadoop命令通过终端将文件复制到hadoop目录。我可以在javaeclipsedfs位置看到这些文件。并且还在终端中使用命令hadoopdfs-ls。当我创建一个普通文件夹(不是hdfs)时，问题就解决了。但是随后程序正在从本地文件系统访问文件。我已经在redhat服务器32位上安装了hadoop1.2.1，使用javaeclipseluna，我已经包含了hadoop插件和来自hadoop库的外部jar文件。输入和输出路径通过运行时参数给出最佳答案

eclipse hadoop section file input microsoft-distributed-file-system