hdfs_clusters

hadoop - 如何通过URL访问hadoop hdfs并在程序中使用

我的hadoopdfs可以通过访问http://localhost:50075/browseDirectory.jsp?dir=%2Fuser%2Fhdone%2Ftext&namenodeInfoPort=50070在我的程序中，我必须引用我的hdfs替换输入FileInputFormat.addInputPath(conf,newPath("input"));我的core-site.xml有值hdfs://localhost:54310我无法使用URL访问它。我的实际hdfs路径是/users/hdone/text2，其中所有文件都具有适当的权限。那么我要为input写什么呢？

hadoop - 从本地非 Hadoop 机器上传数据到 Amazon EC2 中运行的 HDFS

我在AmazonEC2上设置了一个包含两个节点的hadoop集群。它运作良好。我可以使用hadoopapi(附加java程序)从主节点或与hadoop集群位于同一Amazon区域的其他实例将数据上传到HDFS。但是，当我想从我的本地非hadoop机器上执行此操作时，结果如下所示:然后我登录到hadoop名称节点以使用命令行进行检查。文件夹“testdir”已创建，但上传文件“myfile”的大小为0。==================这是分隔符===============================这些是异常(exception)情况Apr18,201310:40:47AMor

中运 hadoop java apache amazon-ec2 hdfs

hadoop - 水槽和远程 hdfs 接收器出错

我正在尝试使用hdfs接收器运行水槽。hdfs在不同的机器上正常运行，我什至可以与flume机器上的hdfs交互，但是当我运行flume并向它发送事件时，我收到以下错误:2013-05-2614:22:11,399(SinkRunner-PollingRunner-DefaultSinkProcessor)[WARN-org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:456)]HDFSIOerrorjava.io.IOException:Callabletimedoutafter25000msator

水槽 hadoop HDFSEventSink hdfs java flume

hadoop - 如何使用与客户端进程不同的所有者创建 HDFS 文件

HDFSAdministratorGuide州"Whenafileordirectoryiscreated,itsowneristheuseridentityoftheclientprocess,anditsgroupisthegroupoftheparentdirectory(theBSDrule)."此规则有任何异常(exception)吗？以用户“clientA”身份运行进程是否有任何方法可以创建具有不同所有者的文件？我正在使用hadoop.security.authentication=simple运行。看来我可以调用setOwner事后，这是一个完全有效的后备解决方案。

所有者 hadoop section 34 hdfs

hadoop - 从 HDFS 集群下载文件

我正在开发一个将hdfs用作分布式文件存储的API。我制作了一个RESTapi，允许服务器使用Webhdfsmkdir、ls、创建和删除HDFS集群中的文件。但是由于Webhdfs不支持下载文件，是否有任何解决方案可以实现这一点。我的意思是我有一台运行我的RESTapi并与集群通信的服务器。我知道OPEN操作只支持读取文本文件内容，但假设我有一个大小为300MB的文件，我如何从hdfs集群下载它。你们有任何可能的解决方案吗？我想直接ping一个文件的数据节点，但这个解决方案是有缺陷的，因为如果文件大小为300MB，它会给我的代理服务器带来巨大的负载，所以有没有流式API来实现这个。

hadoop HDFS section code stackoverflow

hadoop - 如何从 HDFS 执行 map reduce 程序(例如 wordcount)并查看输出？

我是Hadoop新手。我在eclipse中有一个简单的wordcount程序，它接受输入文件然后显示输出。但我需要从HDFS执行相同的程序。我已经为wordcount程序创建了一个JAR文件。任何人都可以让我知道如何进行吗？最佳答案您需要设置集群，即使是单节点集群。然后您可以从hadoop命令行运行您的.jar:jarRunsajarfile.UserscanbundletheirMapReducecodeinajarfileandexecuteitusingthiscommand.Usage:hadoopjar[mainCla

wordcount 例如 section hadoop strong

hadoop - Cloudera CDH4 : Can't add a host to my cluster because canonical name is not consistent with hostname

我正在使用Ubuntu12.04LTS在4节点集群上安装CDH4。我能够安装cloudera管理器并在主机上启动单节点集群。但是，一旦我添加了一个新主机，CM就会说它运行状况不佳并抛出以下错误:“从Java进程检查时，此主机的主机名和规范名称不一致。”我修改了master和所有主机上的/etc/hosts的内容，以包含IP地址，后跟每台机器的FQDN。我是否还需要设置一个DNS服务器才能完成这项工作？最佳答案您不一定需要设置DNS服务器才能使其正常工作，但正向和反向DNS必须明确匹配Hadoop才能正常运行。Hadoop操作书有

consistent canonical section amp 反向 hadoop ubuntu-12.04 cloudera

HADOOP HDFS不平衡问题

我有一个有8台机器的Hadoop集群，这8台机器都是数据节点。有一个程序运行在一台机器(比如机器A)上，它会在HDFS中连续创建序列文件(每个文件大约1GB)。问题来了:所有8台机器都具有相同的硬件和相同的容量。当其他机器的磁盘上还有大约50%的可用空间用于HDFS时，机器A只剩下5%。我查看了区block信息，发现几乎每个区block在机器A上都有一个副本。有什么方法可以平衡副本吗？谢谢。最佳答案这是默认的放置策略。它适用于典型的M/R模式，其中每个HDFS节点也是一个计算节点，写入器机器是均匀分布的。不喜欢的话还有HDFS-

不平 HADOOP section HDFS code load-balancing

sql - 是否有任何抽象层可用于 GFS 或 HDFS？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭9年前。Improvethisquestionfacebook使用的SQL和NOSQL数据库1.是使用GFS还是HDFS还是BOTH还是其他？2.可用于HDFS和GFS的不同抽象应用层有哪些？？3.我听说过HADOOP，MapReduce是如何工作的？请说说优点。并对第二个问题也进行了深入的叙述。

HDFS sql section class notice hadoop nosql gfs

hadoop - [hdfs]如何为每个datanode配置不同的dfs.datanode.data.dir？

我使用ambari来设置hadoop集群。但是当我配置hdfs的配置时。我发现如果我修改dfs.datanode.data.dir，configure会在所有datanodes上生效...如何为每个数据节点配置不同的配置？比如机器A有两block磁盘，分别挂载到/data1、/data2但是机器B只有一个盘，挂载到/data1所以我想将机器A的dfs.datanode.data.dir配置为“/data1,/data2”。但只有机器B的“/data1” 最佳答案不存在的HDFS目录将被忽略。都放进去，没关系。

datanode 何为 section data hadoop hdfs configure

200 201 202203204 205 206