hdfs-audit

java - 在 hadoop HDFS 中存储大文件？

我需要在HDFS上存储一个大约10TB的大文件。我需要了解的是HDFS将如何存储该文件。比如说，集群的复制因子是3，我有一个10节点集群，每个节点上有超过10TB的磁盘空间，即集群总容量超过100TB。现在HDFS是随机选择三个节点，把文件存储在这三个节点上。那么这就像听起来一样简单。请确认？或者HDFS是否拆分文件-比如说分成10个1TB的拆分，然后将每个拆分存储在随机选择的3个节点上。拆分也是可能的，如果是，它是否是启用它的配置方面。如果HDFS必须拆分二进制文件或文本文件——它是如何拆分的。简单地按字节。最佳答案是的，它会

大文 hadoop section HDFS java mapreduce bigdata

hadoop - 文件复制到 DataNodes 时 Hadoop HDFS 中的数据流管道

我只是想更多地了解以下声明。当我试图理解howtheHDFSwriteshappenstoDatanodes.我得到了以下关于HDFS写入的解释。为什么hdfs客户端向数据节点发送4kb而不是向数据节点发送整个block64MB？有的可以详细解释一下吗？为了获得更好的性能，数据节点维护数据传输管道。数据节点1不需要等待一个完整的block到达就可以开始向流中的数据节点2传输。事实上，对于给定block，从客户端到数据节点1的数据传输发生在4KB的较小块中。当数据节点1从客户端接收到第一个4KBblock时，它将这个block存储在其本地存储库中，并立即开始将其传输到流中的数据节点2。同

DataNodes hadoop block section strong hdfs dataflow

amazon-ec2 - 使用 s3 作为 fs.default.name 或 HDFS？

我正在EC2上设置Hadoop集群，我想知道如何进行DFS。我所有的数据目前都在s3中，所有map/reduce应用程序都使用s3文件路径来访问数据。现在我一直在研究Amazon的EMR是如何设置的，它似乎为每个作业流设置了一个名称节点和数据节点。现在我想知道我是否真的需要那样做，或者我是否可以只使用s3(n)作为DFS？如果这样做，有什么缺点吗？谢谢! 最佳答案为了使用S3而不是HDFS，core-site.xml中的fs.name.default需要指向您的存储桶:fs.default.names3n://your-bucke

amazon-ec default section name amazon-ec2 hadoop amazon-emr

scala - java.io.IOException : No FileSystem for scheme : hdfs 异常

我正在使用ClouderaQuickstartVMCDH5.3.0(就包裹包而言)和Spark1.2.0$SPARK_HOME=/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark并使用命令提交Spark应用./bin/spark-submit--class--masterspark://localhost.localdomain:7077--deploy-modeclient--executor-memory4G../apps/.jarSpark_App_Main_Class_Name.scalaimportorg.ap

IOException FileSystem spark apache hadoop scala apache-spark hdfs apache-spark-mllib

hadoop - 寻找一种方法来连续处理写入 hdfs 的文件

我正在寻找可以:监控hdfs目录中的新文件并在它们出现时进行处理。它还应该处理作业/应用程序开始工作之前目录中的文件。它应该有检查点以在重新启动时从它离开的地方继续。我查看了apachespark:它可以读取新添加的文件并且可以处理重新启动以从它离开的地方继续。我找不到一种方法让它也处理同一作业范围内的旧文件(所以只有1和3)。我查看了apacheflink:它确实处理新旧文件。然而，一旦作业重新启动，它就会再次开始处理所有这些(1和2)。这是一个应该很常见的用例。我是否在spark/flink中遗漏了一些使之成为可能的东西？这里有其他工具可以使用吗？最佳

hadoop hdfs section 的 stackoverflow apache-spark apache-flink bigdata

hadoop - 带/不带 HDFS 的 Alluxio

我有一个使用HDFS作为底层存储分布式文件系统的集群，但我刚刚读到有关alluxio的文章，它既快速又灵活。所以，我的问题是:我应该将Alluxio与HDFS一起使用，还是Alluxio是HDFS的替代品？(我在他们的网站上看到存储文件系统的共享存储可以是网络文件系统(NFS)。所以，我认为不需要HDFS。如果我弄错了请指正)。在哪种模式下性能更好:HDFSwithAlluxioorAlluxiostanalone(我的意思是术语standalone是在集群中单独使用而不是在本地使用)。最佳答案来自Alluxio维护者的回复。首

Alluxio hadoop HDFS section distributed-filesystem

hadoop - 将 .deflate 文件解压为 HDFS 中的文本并将结果复制到本地

运行sqoop作业后，我得到了文件.deflate扩展名(默认情况下配置压缩)。我知道我可以使用以下命令显示文件内容:hadoopfs-text如何将此结果复制到我的本地文件夹？最佳答案只需将输出重定向到某个本地文件hadoopfs-texthdfs_path>local_file.txt 关于hadoop-将.deflate文件解压为HDFS中的文本并将结果复制到本地，我们在StackOverflow上找到一个类似的问题： https://stackov

并将 deflate section code hadoop hdfs sqoop

hadoop - HDFS 中的 block 复制限制

我目前正在重建具有区域服务器和数据节点的服务器。当我关闭一个数据节点时，10分钟后，它所拥有的block将在其他数据节点之间重新复制，这是应该的。我们有10个数据节点，因此在重新复制block时我看到网络流量很大。但是，我发现每台服务器的流量大约只有500-600mbps(所有机器都有千兆位接口(interface))，所以它绝对不受网络限制。我试图弄清楚是什么限制了数据节点发送和接收block的速度。每个数据节点有六个7200rpmsata驱动器，在此期间IO使用率非常低，每个驱动器的峰值仅为20-30%。hdfs是否内置了限制block复制速度的限制？

hadoop block code section hdfs

hadoop - 为什么每次重启机器后都需要格式化HDFS？

我在我的笔记本电脑上安装了伪分布式模式的Hadoop，操作系统是Ubuntu。我已经更改了hadoop存储其数据的路径(默认情况下hadoop将数据存储在/tmp文件夹中)hdfs-site.xml文件如下所示:dfs.data.dir/HADOOP_CLUSTER_DATA/data现在每当我重新启动机器并尝试使用start-all.sh脚本启动hadoop集群时，数据节点永远不会启动。我通过检查日志和使用jps命令确认数据节点没有启动。然后我使用stop-all.sh脚本停止集群。使用hadoopnamenode-format命令格式化HDFS。使用start-all.sh脚本启动

hadoop HDFS code section ubuntu-11.04

scala - 将文件从本地移动到 HDFS

我的环境使用Spark、Pig和Hive。我在用Scala(或与我的环境兼容的任何其他语言)编写可以将文件从本地文件系统复制到HDFS的代码时遇到了一些麻烦。有人对我应该如何进行有任何建议吗？最佳答案其他答案对我不起作用，所以我在这里写另一个。试试下面的Scala代码:importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.FileSystemimportorg.apache.hadoop.fs.PathvalhadoopConf=newConfi

scala HDFS section code hadoop apache-spark hive apache-pig

32 33 343536 37 38