hdfs_clusters

linux - Hadoop HDFS : DateNode directory on system partition?

我们用这种方式设置的Hadoop集群空间不足:1x1TBHDD/3个1.5TBHDD/data1/data2/data3系统分区几乎不用(97%空闲)，不会用于与hadoop无关的任务。将系统分区作为HDFS数据目录添加到DataNode配置中是否安全？我担心Hadoop会填满分区并使系统无法使用。最好的方法可能是设置单独的lvm卷或重新分区磁盘。但我会避免走这条路。hadoop是否遵守unix配额？例如。如果我从系统分区添加一个目录并通过配额限制hadoop用户只能使用例如0.5TB会有帮助吗？最佳答案是的，Hadoop使用通

hadoop - PIG 自动连接默认HDFS，怎么样？

我刚刚开始学习Hadoop和PIG(从最近两天开始!)，用于我future的项目之一。为了实验，我安装了Hadoop(默认localhost:9000上的HDFS)作为伪分布式模式和PIG(map-reduce模式)。当我通过输入./bin/pig命令初始化PIG时，它启动了GRUNT命令行，我收到了pig连接到HDFS(localhost:9000)的消息，后来我可以通过pig成功访问HDFS。我希望为PIG执行一些手动配置以访问HDFS(根据各种互联网文章)。我的问题是，PIG从哪里确定了默认的HDFS配置(localhost:9000)？我检查了pig.properties但我在

怎么样 hadoop section code HDFS apache-pig

hadoop - 从 hdfs 远程检索文件并将其存储在本地节点中

我想编写一个作业，其中每个映射器检查来自hdfs的文件是否存储在正在执行的节点中。如果没有发生，我想从hdfs检索它并将其本地存储在该节点中。这可能吗？编辑:我正在尝试执行此操作(3)RepartitionJoin的预处理，如下所述:link 最佳答案 DistributedCacheHadoop中的特性可用于分发完成作业所需的边数据或辅助数据。这里(1,2)是一些有趣的文章。关于hadoop-从hdfs远程检索文件并将其存储在本地节点中，我们在StackOverflow上找到一个类似

并将点中 section noreferrer noopener hadoop hdfs

java - 什么会使这个目录在 HDFS 上不可组写？

使用这段代码:fileSystem.mkdirs(newPath(path),newFsPermission((short)0774));或此代码:fileSystem.mkdirs(newPath(path),newFsPermission(FsAction.ALL,FsAction.ALL,FsAction.READ_EXECUTE));为什么创建的目录不是组可写的？文件也存在同样的问题。所有者权限设置为rwx，但组设置为r--。此代码在cdh3u3下运行。最佳答案您需要更新您的hdfs-site.xml并设置以下属性:df

java HDFS section code pre hadoop filesystems

hadoop - 将 Akubra-HDFS 与 Cloudera CDH4 结合使用

我正在尝试使用Akubra-HDFS作为fedoracommons的低级存储服务器。我遵循了类似于installationofIRODS的程序设置Akubra-HDFS。fedora服务器使用Hadoop(版本1.0.4)作为其存储。但是，我在将Akubra-HDFS库与ClouderaCDH4/ApacheHadoop2.0.3alpha-高可用性(HA)发行版一起使用时遇到了问题。我想分享我的发现。最佳答案由于AKubra-HDFS是一个新的实验性库，互联网上关于它的资源并不多。我必须通过尝试不同的依赖jar来找出解决方案。

Akubra-HDFS Cloudera section li jar hadoop storage hdfs fedora-commons

java - 将包含内容的目录从 HDFS 复制到本地文件系统

我正在寻找一种从HDFS复制整个目录的最佳方法，其中包含所有内容。像这样的东西:PathsrcPath=newPath("hdfs://localhost:9000/user/britva/data");PathdstPath=newPath("/home/britva/Work");fs.copyToLocal(false,srcPath,dstPath);此外，“数据”文件夹可以包含“工作”目录中不存在的文件夹。那么这样做的最佳方法是什么？感谢您的回答!我想解决方案之一是使用FileUtil对象，但不确定如何使用它，因为我只初始化了一个文件系统——HDFS。那么问题来了，我的本地F

含内容 java section code Path scala hadoop hdfs

file - 无法从 map 写入 hadoop 文件系统 (HDFS)

我正在尝试直接从mapper在hadoop文件系统中写入一个纯文本文件。我是这样做的:publicvoidcreateFile(Configurationconf)throwsIOException{FileSystemfs=FileSystem.get(conf);PathfilenamePath=newPath(conf.get("mapred.output.dir")+"/_"+conf.get("mapred.task.id"),"tree.txt");try{if(fs.exists(filenamePath)){//removethefilefirstfs.delete(f

hadoop file section FileSystem filenamePath hdfs mapper

hadoop - 使用 HDFS+Map Reduce 的示例应用程序

我有一门学术类(class)“中间件”，它涵盖了分布式软件系统的不同方面，包括对[tag:DistributedFilesystem]等主题的介绍。这也涉及到hbase的介绍,hadoop,mapreduce,hiveql,piglatin.我想知道，我可以有一个试图整合上述技术的小项目吗？对于初学者，我知道vm由cloudera提供因为有hadoop的感觉并使用Eclipse进行游戏。我正在考虑实现一个接受事件流作为输入的应用程序，分析它并给出输出。我都有windows/linux在我的机器上i7处理器和4GbRam。请让我知道如何开始一切，欢迎对简单示例应用程序提出任何建议。

hadoop Reduce questions tagged noreferrer mapreduce hbase hdfs hiveql

performance - HDFS序列文件性能调优

我正在尝试使用Hadoop来处理许多存储在序列文件中的小文件。我的程序是高度IO绑定(bind)，因此我想确保IO吞吐量足够高。我编写了一个MR程序，它从序列文件中读取小样本文件并将这些文件写入ramdisk(/dev/shm/test/)。还有另一个独立的程序可以删除写入ram磁盘的文件而不需要任何计算。所以测试应该几乎是纯IO绑定(bind)。然而，IO吞吐量并没有我预期的那么好。我有5个数据节点，每个数据节点有5个数据磁盘。每个磁盘可以提供大约100MB/s的吞吐量。理论上这个集群应该可以提供100MB/s*5(磁盘)*5(机器)=2500MB/s。但是，我只得到大约600MB/

performance HDFS strong section 吞吐 hadoop sequencefile

java - Hadoop hdfs，java客户端无法连接到hdfs

我正在尝试将我的java客户端连接到我的hadoopHDFS，但是当我尝试从我的配置中获取fs时我被卡住了Configurationconf=newConfiguration();conf.set("fs.default.name",_PATH_);conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");FileSystemf=FileSystem.get(conf);然后我得到这个exp..java.lang.RuntimeException:classorg.apache.hadoop.secu

java hdfs section hadoop conf

159 160 161162163 164 165