草庐IT

hdfs_clusters

全部标签

hadoop - hadoop 存储文件的位置,以便以编程方式通过 HDFS 进行读写

我在我的机器上使用伪分布模式设置并在我的eclipseIDE中创建了以下程序:这个程序只是将输入文件合并到HDFS中的单个文件。importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSys

hadoop - 如何实现Apache Storm监控HDFS目录

我有一个HDFS目录,其中的文件将从许多来源连续复制(流式传输)。如何构建用于监控HDFS目录的拓扑结构,即无论何时在该目录中创建新文件,都应该对其进行处理。 最佳答案 您希望监控HDFS文件/目录更改。看看这个问题,它指向Oozie和HBase中的现有支持:HowtoknowthatanewdataisbeenaddedtoHDFS?当这些工具检测到新文件时,您可以将项目发送到拓扑中进行处理。或者你可以在storm中编写自己的自定义逻辑,定期列出并检查是否有新文件添加到HDFS中。查看Storm中的刻度元组支持。

hadoop - 一个包含 HDFS 和 MapReduce 的文件数据库

假设我想存储大量带有相关元数据的urlURL=>Metadata在文件中hdfs://db/urls.seq我希望这个文件在每次运行MapReduce后增长(如果找到新的URL)。这可以与Hadoop一起使用吗?据我了解,MapReduce将数据输出到新目录。有没有办法获取该输出并将其附加到文件中?我想到的唯一想法是创建一个临时的urls.seq然后替换旧的。它有效,但感觉很浪费。另外,根据我的理解,Hadoop喜欢“一次编写”的方法,而这个想法似乎与此冲突。 最佳答案 作为blackSmith已经解释说你可以很容易地在hdfs中附

hadoop - 是否有 HDFS 客户端有线协议(protocol)规范?

我有兴趣找出为HDFS客户端定义的有线协议(protocol)。我能找到的只是各种HDFS客户端绑定(bind)的源代码。如果有人可以指出协议(protocol)规范,我们将不胜感激。谢谢。 最佳答案 从Hadoop0.23+开始,所有协议(protocol)都切换到了ProtocolBuffers。可以找到HDFS协议(protocol)定义here.还有一个WebHDFS向HDFS添加REST接口(interface)的实现。但是,IIRC,像Horotonworks和Cloudera这样的大供应商还不推荐使用它。

mysql - Apache Drill - 查询 HDFS 和 SQL

我正在尝试探索ApacheDrill。我不是数据分析师,只是基础设施支持人员。我看到关于ApacheDrill的文档太有限了我需要一些关于可与ApacheDrill一起使用的自定义数据存储的详细信息是否可以像dfs一样使用ApacheDrill在没有Hive的情况下查询HDFS是否可以查询像MySQL和MicrosoftSQL这样的旧RDBMS提前致谢更新:我的HDFS存储防御说错误(无效的JSON映射){"type":"file","enabled":true,"connection":"hdfs:///","workspaces":{"root":{"location":"/","

file - java eclipse hadoop map reduce程序无法访问我存储在hdfs中的文件

我的javaeclipsehadoopmapreduce程序显示无法定位输入文件的错误。我已经使用hadoop命令通过终端将文件复制到hadoop目录。我可以在javaeclipsedfs位置看到这些文件。并且还在终端中使用命令hadoopdfs-ls。当我创建一个普通文件夹(不是hdfs)时,问题就解决了。但是随后程序正在从本地文件系统访问文件。我已经在redhat服务器32位上安装了hadoop1.2.1,使用javaeclipseluna,我已经包含了hadoop插件和来自hadoop库的外部jar文件。输入和输出路径通过运行时参数给出 最佳答案

java - 从 REST API 轮询数据到 HDFS

我有一个博客提供了一个RESTAPI来下载数据。API提供主题列表(JSON格式)。可以迭代列表以下载每个主题的消息。我想每天下载论坛的所有消息,并存储在HDFS中。我正在考虑编写一个Java程序调用API来获取数据并使用HadoopAPI将其存储在HDFS上。我可以使用每日Oozie批处理运行Java程序。有更好的方法吗?也许将数据存储在本地文件系统上,最后将文件放在HDFS上。我想知道在这种情况下是否可以使用Flume,它的附加值是什么?提前致谢 最佳答案 这似乎是一个“简单”的程序。您可以使用任何语言/工具从restAPI读取

hadoop - 为什么我需要在 hdfs 中保留 hbase/lib 文件夹?

我有一个主集群,它在Hbase中有一些数据,我想复制它。我已经创建了一个备份集群并创建了我要复制的表的快照。我正在尝试将快照从源集群导出到目标,但出现了一些错误。我在执行./hbaseorg.apache.hadoop.hbase.snapshot.ExportSnapshot-snapshotmySnap-copy-tohdfs://198.58.88.11:9000/hbase作为执行的结果,我得到了SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/home/vagrant/hba

具有无盘计算节点的 hadoop (HDFS)

我有一个小型集群,其中一个节点具有RAID存储,以及几个功能强大的无盘计算节点,这些节点通过PXE启动。所有节点都通过InfiniBand连接(以及用于引导的1G以太网)。我需要在这个集群上部署Hadoop。请建议最佳配置据我所知,默认配置意味着所有计算节点都有自己的小存储,但在我的情况下(如果我有NFS共享)它会通过网络制作太多副本。我找到了有关将Hadoop与Lustre结合使用的资源,但我不明白如何配置它 最佳答案 您所描述的可能是可行的,但您没有使用Hadoop功能,而是试图找到解决它们的方法。移动计算比移动数据便宜-数据局

macos - 无法找到或加载类 : org. apache.hadoop.hdfs.server.namenode.NameNode

我在我的mac上安装了hadoop,我按照hadoop安装一步一步来当我执行hdfsnamenode-formathadoop总是返回错误无法找到或加载类org.apache.hadoop.hdfs.server.namenode.NameNode这是我的/etc/profile:exportJAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_25.jdk/contents/homeexportJRE_HOME=$JAVA_HOME/jreexportCLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$C