hdfs_clusters

hadoop - hadoop 存储文件的位置，以便以编程方式通过 HDFS 进行读写

我在我的机器上使用伪分布模式设置并在我的eclipseIDE中创建了以下程序:这个程序只是将输入文件合并到HDFS中的单个文件。importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSys

hadoop - 如何实现Apache Storm监控HDFS目录

我有一个HDFS目录，其中的文件将从许多来源连续复制(流式传输)。如何构建用于监控HDFS目录的拓扑结构，即无论何时在该目录中创建新文件，都应该对其进行处理。最佳答案您希望监控HDFS文件/目录更改。看看这个问题，它指向Oozie和HBase中的现有支持:HowtoknowthatanewdataisbeenaddedtoHDFS?当这些工具检测到新文件时，您可以将项目发送到拓扑中进行处理。或者你可以在storm中编写自己的自定义逻辑，定期列出并检查是否有新文件添加到HDFS中。查看Storm中的刻度元组支持。

hadoop Apache section HDFS stackoverflow apache-storm

hadoop - 一个包含 HDFS 和 MapReduce 的文件数据库

假设我想存储大量带有相关元数据的urlURL=>Metadata在文件中hdfs://db/urls.seq我希望这个文件在每次运行MapReduce后增长(如果找到新的URL)。这可以与Hadoop一起使用吗？据我了解，MapReduce将数据输出到新目录。有没有办法获取该输出并将其附加到文件中？我想到的唯一想法是创建一个临时的urls.seq然后替换旧的。它有效，但感觉很浪费。另外，根据我的理解，Hadoop喜欢“一次编写”的方法，而这个想法似乎与此冲突。最佳答案作为blackSmith已经解释说你可以很容易地在hdfs中附

MapReduce hadoop section stackoverflow hdfs

hadoop - 是否有 HDFS 客户端有线协议(protocol)规范？

我有兴趣找出为HDFS客户端定义的有线协议(protocol)。我能找到的只是各种HDFS客户端绑定(bind)的源代码。如果有人可以指出协议(protocol)规范，我们将不胜感激。谢谢。最佳答案从Hadoop0.23+开始，所有协议(protocol)都切换到了ProtocolBuffers。可以找到HDFS协议(protocol)定义here.还有一个WebHDFS向HDFS添加REST接口(interface)的实现。但是，IIRC，像Horotonworks和Cloudera这样的大供应商还不推荐使用它。

protocol hadoop section client protocols hdfs

mysql - Apache Drill - 查询 HDFS 和 SQL

我正在尝试探索ApacheDrill。我不是数据分析师，只是基础设施支持人员。我看到关于ApacheDrill的文档太有限了我需要一些关于可与ApacheDrill一起使用的自定义数据存储的详细信息是否可以像dfs一样使用ApacheDrill在没有Hive的情况下查询HDFS是否可以查询像MySQL和MicrosoftSQL这样的旧RDBMS提前致谢更新:我的HDFS存储防御说错误(无效的JSON映射){"type":"file","enabled":true,"connection":"hdfs:///","workspaces":{"root":{"location":"/","

Apache mysql 34 section Drill hadoop hdfs apache-drill

file - java eclipse hadoop map reduce程序无法访问我存储在hdfs中的文件

我的javaeclipsehadoopmapreduce程序显示无法定位输入文件的错误。我已经使用hadoop命令通过终端将文件复制到hadoop目录。我可以在javaeclipsedfs位置看到这些文件。并且还在终端中使用命令hadoopdfs-ls。当我创建一个普通文件夹(不是hdfs)时，问题就解决了。但是随后程序正在从本地文件系统访问文件。我已经在redhat服务器32位上安装了hadoop1.2.1，使用javaeclipseluna，我已经包含了hadoop插件和来自hadoop库的外部jar文件。输入和输出路径通过运行时参数给出最佳答案

eclipse hadoop section file input microsoft-distributed-file-system

java - 从 REST API 轮询数据到 HDFS

我有一个博客提供了一个RESTAPI来下载数据。API提供主题列表(JSON格式)。可以迭代列表以下载每个主题的消息。我想每天下载论坛的所有消息，并存储在HDFS中。我正在考虑编写一个Java程序调用API来获取数据并使用HadoopAPI将其存储在HDFS上。我可以使用每日Oozie批处理运行Java程序。有更好的方法吗？也许将数据存储在本地文件系统上，最后将文件放在HDFS上。我想知道在这种情况下是否可以使用Flume，它的附加值是什么？提前致谢最佳答案这似乎是一个“简单”的程序。您可以使用任何语言/工具从restAPI读取

java REST section API 来安 hadoop oozie flume

hadoop - 为什么我需要在 hdfs 中保留 hbase/lib 文件夹？

我有一个主集群，它在Hbase中有一些数据，我想复制它。我已经创建了一个备份集群并创建了我要复制的表的快照。我正在尝试将快照从源集群导出到目标，但出现了一些错误。我在执行./hbaseorg.apache.hadoop.hbase.snapshot.ExportSnapshot-snapshotmySnap-copy-tohdfs://198.58.88.11:9000/hbase作为执行的结果，我得到了SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/home/vagrant/hba

hadoop hbase apache java

具有无盘计算节点的 hadoop (HDFS)

我有一个小型集群，其中一个节点具有RAID存储，以及几个功能强大的无盘计算节点，这些节点通过PXE启动。所有节点都通过InfiniBand连接(以及用于引导的1G以太网)。我需要在这个集群上部署Hadoop。请建议最佳配置据我所知，默认配置意味着所有计算节点都有自己的小存储，但在我的情况下(如果我有NFS共享)它会通过网络制作太多副本。我找到了有关将Hadoop与Lustre结合使用的资源，但我不明白如何配置它最佳答案您所描述的可能是可行的，但您没有使用Hadoop功能，而是试图找到解决它们的方法。移动计算比移动数据便宜-数据局

无盘 hadoop section the share hdfs

macos - 无法找到或加载类 : org. apache.hadoop.hdfs.server.namenode.NameNode

我在我的mac上安装了hadoop，我按照hadoop安装一步一步来当我执行hdfsnamenode-formathadoop总是返回错误无法找到或加载类org.apache.hadoop.hdfs.server.namenode.NameNode这是我的/etc/profile:exportJAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_25.jdk/contents/homeexportJRE_HOME=$JAVA_HOME/jreexportCLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$C

NameNode HOME section hadoop macos

163 164 165166167 168 169