hdfs

java - 将包含内容的目录从 HDFS 复制到本地文件系统

我正在寻找一种从HDFS复制整个目录的最佳方法，其中包含所有内容。像这样的东西:PathsrcPath=newPath("hdfs://localhost:9000/user/britva/data");PathdstPath=newPath("/home/britva/Work");fs.copyToLocal(false,srcPath,dstPath);此外，“数据”文件夹可以包含“工作”目录中不存在的文件夹。那么这样做的最佳方法是什么？感谢您的回答!我想解决方案之一是使用FileUtil对象，但不确定如何使用它，因为我只初始化了一个文件系统——HDFS。那么问题来了，我的本地F

file - 无法从 map 写入 hadoop 文件系统 (HDFS)

我正在尝试直接从mapper在hadoop文件系统中写入一个纯文本文件。我是这样做的:publicvoidcreateFile(Configurationconf)throwsIOException{FileSystemfs=FileSystem.get(conf);PathfilenamePath=newPath(conf.get("mapred.output.dir")+"/_"+conf.get("mapred.task.id"),"tree.txt");try{if(fs.exists(filenamePath)){//removethefilefirstfs.delete(f

hadoop file section FileSystem filenamePath hdfs mapper

hadoop - 使用 HDFS+Map Reduce 的示例应用程序

我有一门学术类(class)“中间件”，它涵盖了分布式软件系统的不同方面，包括对[tag:DistributedFilesystem]等主题的介绍。这也涉及到hbase的介绍,hadoop,mapreduce,hiveql,piglatin.我想知道，我可以有一个试图整合上述技术的小项目吗？对于初学者，我知道vm由cloudera提供因为有hadoop的感觉并使用Eclipse进行游戏。我正在考虑实现一个接受事件流作为输入的应用程序，分析它并给出输出。我都有windows/linux在我的机器上i7处理器和4GbRam。请让我知道如何开始一切，欢迎对简单示例应用程序提出任何建议。

hadoop Reduce questions tagged noreferrer mapreduce hbase hdfs hiveql

performance - HDFS序列文件性能调优

我正在尝试使用Hadoop来处理许多存储在序列文件中的小文件。我的程序是高度IO绑定(bind)，因此我想确保IO吞吐量足够高。我编写了一个MR程序，它从序列文件中读取小样本文件并将这些文件写入ramdisk(/dev/shm/test/)。还有另一个独立的程序可以删除写入ram磁盘的文件而不需要任何计算。所以测试应该几乎是纯IO绑定(bind)。然而，IO吞吐量并没有我预期的那么好。我有5个数据节点，每个数据节点有5个数据磁盘。每个磁盘可以提供大约100MB/s的吞吐量。理论上这个集群应该可以提供100MB/s*5(磁盘)*5(机器)=2500MB/s。但是，我只得到大约600MB/

performance HDFS strong section 吞吐 hadoop sequencefile

java - Hadoop hdfs，java客户端无法连接到hdfs

我正在尝试将我的java客户端连接到我的hadoopHDFS，但是当我尝试从我的配置中获取fs时我被卡住了Configurationconf=newConfiguration();conf.set("fs.default.name",_PATH_);conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");FileSystemf=FileSystem.get(conf);然后我得到这个exp..java.lang.RuntimeException:classorg.apache.hadoop.secu

java hdfs section hadoop conf

python - 我想调用 HDFS REST api 来上传文件

我想调用HDFSRESTapi以使用httplib上传文件。我的程序创建了文件，但其中没有内容。===================================================这是我的代码:importhttplibconn=httplib.HTTPConnection("localhost:50070")conn.request("PUT","/webhdfs/v1/levi/4?op=CREATE")res=conn.getresponse()printres.status,res.reasonconn.close()conn=httplib.HTTPConn

python HDFS redirect 34 conn hadoop httplib

hadoop - HDFS的文件更新要求是什么？

在theHDFSArchiectiureguide的简单一致性模型部分下，它指出(强调我的):HDFSapplicationsneedawrite-once-read-manyaccessmodelforfiles.Afileoncecreated,written,andclosedneednotbechanged.Thisassumptionsimplifiesdatacoherencyissuesandenableshighthroughputdataaccess.AMap/Reduceapplicationorawebcrawlerapplicationfitsperfectly

求是 hadoop section noreferrer noopener hdfs

hadoop - 如何在 HDFS 中存储和分析带时间戳的日志

我有很多日志行，每行都有一个时间，我想将它们存储在HDFS中并进行分析。我想运行MapReduce作业，这些作业将只处理给定时间范围内的行(最后5分钟，最后一小时)。我正在寻找入门指南。并且，任何替代方案(例如，将行存储在hbase中？其他平台？) 最佳答案我的2美分:您可以为此使用Hbase。读入文件的每一行，取出TS字段并将其用作行键，并将该行的其余部分存储在一列中。所以我们的表将只有一列。这将允许您进行更快的范围查询，就像您需要的那样(最后5分钟、最后一小时等)。为了避免区域服务器热点，您可以创建预拆分表。或者，您可以将数据

何在 hadoop section 并将 stackoverflow mapreduce hdfs

hadoop - 可以使用 distcp 将文件目录从 S3 复制到 HDFS 吗？

我想知道hadoopdistcp是否可以用于一次将多个文件从S3复制到HDFS。它似乎只适用于具有绝对路径的单个文件。我想复制整个目录，或使用通配符。参见:HadoopDistCpusingwildcards?我知道s3distcp,但为了简单起见，我更愿意使用distcp。这是我尝试将目录从S3复制到HDFS的尝试:[root@ip-10-147-167-56~]#/root/ephemeral-hdfs/bin/hadoopdistcps3n://:@mybucket/dirhdfs:///input/13/05/2319:58:27INFOtools.DistCp:srcPath

hadoop distcp java apache amazon-s3 hdfs

hadoop - HDFS 文件位置/副本放置提示

有什么方法可以告诉HDFS在某些文件创建期间我想从哪里获取文件副本？好的，我知道这可能只是提示，在任何情况下都不能保证。谢谢。为什么我需要这个？我有MapReduce作业(实际上是它们的链)，并且由于我可以控制输入拆分位置，所以我希望以前的作业缩减器能够说明下一个作业映射器的“最可能”位置。这是解决我的问题的替代方法之一。有什么想法吗？最佳答案应该可以用this.它允许您编写Java代码来指定HDFS应如何分配文件block的副本。HTH 关于hadoop-HDFS文件位置/副本放置

hadoop HDFS section stackoverflow mapreduce

193 194 195196197 198 199