hdfs

hadoop - HDFS 上的文件 block

Hadoop是否保证同一文件的不同block将存储在集群中的不同机器上？显然复制的block将在不同的机器上。最佳答案没有。如果您查看HDFSArchitectureGuide，您将看到(在图表中)文件part-1的复制因子为3，并且由标记为2、4和5的三个block组成。请注意block2和5在一种情况下在同一个数据节点上。关于hadoop-HDFS上的文件block，我们在StackOverflow上找到一个类似的问题： https://stacko

hadoop - 并行复制到 HDFS

从NFS装载实现到hadoop的并行复制的最佳和快速方法是什么？我们有一个包含大量文件的挂载，我们需要将其复制到hdfs中。一些选项:以多线程方式运行copyFromLocal以独立的方式使用distcp。我可以写一个只有map的作业来做复制吗？问候，京东最佳答案我认为关键问题是NFS链接的源端是什么？如果它是一个NAS，你可能会更好地处理你有多台客户端机器同时运行copyFromLocal(每台一台)的情况。当您从同一个客户端同时读取超过5-10个磁盘时，即使是高性能NAS也会感到不快。我将对以下内容进行建模(全部使用copy

hadoop HDFS section copyFromLocal li

linux - Hadoop HDFS 测试运行问题 - org.apache.hadoop.conf.Configuration NoClassDefFoundError

我正在使用Hadoop0.21.0。并尝试运行CAPI库附带的hdfs_test应用程序。经过许多问题后，我能够编译hdfs_test。现在，当我运行它时:./hdfs_test我收到以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/logging/LogFactoryatorg.apache.hadoop.conf.Configuration.(Configuration.java:153)Causedby:java.lang.ClassNotFoundException:org

NoClassDefFoundError Configuration java section URLClassLoader linux gcc hadoop hdfs

ruby - 如何使用 Ruby 在 MapR HDFS 中保存文件

有没有办法使用来自Ruby的Hadoop的MapR分发将文件保存在HDFS中？显然，有一个名为thriftfs的ThriftAPI可以从客户端与HDFS通信，但看起来它没有与MapR捆绑在一起。最佳答案我也在http://answers.mapr.com/questions/1525/how-to-run-thriftfs-from-mapr?page=1#1528回答了这个问题基本思想是像Ruby这样的语言不需要语言特定的绑定(bind)来访问MapR集群的文件系统。相反，您需要做的就是将集群挂载为NFS文件系统，您可以进行任

ruby section questions how-to-run-thriftfs-from-mapr hadoop hdfs mapr

java - 在 Java hdfs 中读取文件

我在集群上运行该程序时遇到了问题，因此决定在函数map和reduce中读取hdfs文件。如何逐行读取hdfs文件并烧录到ArrayList中读取行？最佳答案只是演示的代码片段:Pathpath=newPath(filePath);FileSystemfs=path.getFileSystem(context.getConfiguration());//contextofmapperorreducerFSDataInputStreamfdsis=fs.open(path);BufferedReaderbr=newBufferedR

java section ArrayList String linux hadoop solaris hdfs

linux - Hadoop HDFS : DateNode directory on system partition?

我们用这种方式设置的Hadoop集群空间不足:1x1TBHDD/3个1.5TBHDD/data1/data2/data3系统分区几乎不用(97%空闲)，不会用于与hadoop无关的任务。将系统分区作为HDFS数据目录添加到DataNode配置中是否安全？我担心Hadoop会填满分区并使系统无法使用。最好的方法可能是设置单独的lvm卷或重新分区磁盘。但我会避免走这条路。hadoop是否遵守unix配额？例如。如果我从系统分区添加一个目录并通过配额限制hadoop用户只能使用例如0.5TB会有帮助吗？最佳答案是的，Hadoop使用通

directory partition section Hadoop DataNode linux filesystems hdfs quota

hadoop - PIG 自动连接默认HDFS，怎么样？

我刚刚开始学习Hadoop和PIG(从最近两天开始!)，用于我future的项目之一。为了实验，我安装了Hadoop(默认localhost:9000上的HDFS)作为伪分布式模式和PIG(map-reduce模式)。当我通过输入./bin/pig命令初始化PIG时，它启动了GRUNT命令行，我收到了pig连接到HDFS(localhost:9000)的消息，后来我可以通过pig成功访问HDFS。我希望为PIG执行一些手动配置以访问HDFS(根据各种互联网文章)。我的问题是，PIG从哪里确定了默认的HDFS配置(localhost:9000)？我检查了pig.properties但我在

怎么样 hadoop section code HDFS apache-pig

hadoop - 从 hdfs 远程检索文件并将其存储在本地节点中

我想编写一个作业，其中每个映射器检查来自hdfs的文件是否存储在正在执行的节点中。如果没有发生，我想从hdfs检索它并将其本地存储在该节点中。这可能吗？编辑:我正在尝试执行此操作(3)RepartitionJoin的预处理，如下所述:link 最佳答案 DistributedCacheHadoop中的特性可用于分发完成作业所需的边数据或辅助数据。这里(1,2)是一些有趣的文章。关于hadoop-从hdfs远程检索文件并将其存储在本地节点中，我们在StackOverflow上找到一个类似

并将点中 section noreferrer noopener hadoop hdfs

java - 什么会使这个目录在 HDFS 上不可组写？

使用这段代码:fileSystem.mkdirs(newPath(path),newFsPermission((short)0774));或此代码:fileSystem.mkdirs(newPath(path),newFsPermission(FsAction.ALL,FsAction.ALL,FsAction.READ_EXECUTE));为什么创建的目录不是组可写的？文件也存在同样的问题。所有者权限设置为rwx，但组设置为r--。此代码在cdh3u3下运行。最佳答案您需要更新您的hdfs-site.xml并设置以下属性:df

java HDFS section code pre hadoop filesystems

hadoop - 将 Akubra-HDFS 与 Cloudera CDH4 结合使用

我正在尝试使用Akubra-HDFS作为fedoracommons的低级存储服务器。我遵循了类似于installationofIRODS的程序设置Akubra-HDFS。fedora服务器使用Hadoop(版本1.0.4)作为其存储。但是，我在将Akubra-HDFS库与ClouderaCDH4/ApacheHadoop2.0.3alpha-高可用性(HA)发行版一起使用时遇到了问题。我想分享我的发现。最佳答案由于AKubra-HDFS是一个新的实验性库，互联网上关于它的资源并不多。我必须通过尝试不同的依赖jar来找出解决方案。

Akubra-HDFS Cloudera section li jar hadoop storage hdfs fedora-commons

192 193 194195196 197 198