hdfs

hadoop - 没有 Map/Reduce 的 HDFS 分布式读取

是否可以在一台机器上使用HDFS客户端实现从HDSF集群的分布式读取？我用一个由3个数据节点(DN1、DN2、DN3)组成的集群进行了实验。然后我从位于DN1上的客户端程序运行10个同时读取10个独立文件，它似乎只从DN1读取数据。其他数据节点(DN2、DN3)显示为零事件(从调试日志判断)。我检查了所有文件的block是否在所有3个数据节点上都被复制了，所以如果我关闭DN1，那么数据将从DN2读取(仅DN2)。增加读取的数据量没有帮助(尝试从2GB到30GB)。由于我需要读取多个大文件并仅从中提取少量数据(几Kb)，因此我想避免使用map/reduce，因为它需要设置更多服务并且还需

java - 使用 Java 访问 HDFS 中的文件

我正在尝试使用JavaAPI访问HDFS中的文件，但每次我都找不到文件。我用来访问的代码是:-Configurationconf=newConfiguration();conf.addResource(FileUtilConstants.ENV_HADOOP_HOME+FileUtilConstants.REL_PATH_CORE_SITE);conf.addResource(FileUtilConstants.ENV_HADOOP_HOME+FileUtilConstants.REL_PATH_HDFS_SITE);try{FileSystemfs=FileSystem.get(co

java 34 hadoop HadoopFileChecksumUtils hdfs

java - block 池 <registering> 初始化失败(Datanode Uuid 未分配)

此错误的来源是什么以及如何修复？2015-11-2919:40:04,670FATALorg.apache.hadoop.hdfs.server.datanode.DataNode:InitializationfailedforBlockpool(DatanodeUuidunassigned)servicetoanmol-vm1-new/10.0.1.190:8020.Exiting.java.io.IOException:Allspecifieddirectoriesarenotaccessibleordonotexist.atorg.apache.hadoop.hdfs.serve

registering amp datanode hadoop apache java hdfs uuid disk

hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

我知道HBASE是一个列式数据库，将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读取/写入，并且有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题:1)在HBASE之上分层Spark而不是单独使用HBASE带来了哪些附加功能？这仅取决于程序员的能力，或者是否有任何性能理由这样做？有没有Spark可以做而HBASE不能做的事情？2)源于上一个问题，什么时候应该在HDFS和SPARK之间添加HBASE而不是直接使用HDFS？最佳答案 1)Whataretheaddedcapabili

Spark hadoop HBASE section apache-spark hdfs

hadoop - Namenode-HDFS "Connection refused"错误(Hadoop 问题)

当我们看到使用jps命令时，我的所有节点都已启动并正在运行，但我仍然无法连接到hdfs文件系统。每当我在HadoopNamenodelocalhost:8020页面上单击Browsethefilesystem时，我得到的错误是ConnectionRefused。我也尝试过格式化并重新启动名称节点，但错误仍然存在。谁能帮我解决这个问题。最佳答案检查您的所有服务是否都在运行JobTracker、Jps、NameNode。DataNode、TaskTracker通过运行jps命令。尝试一个一个地运行它们:./bin/stop-al

Namenode-HDFS Connection code hadoop section hdfs

hadoop - HDFS 错误放置 : `input' : No such file or directory

我已经安装了hadoop2.6.0，并且正在试用它。我正在尝试伪分布式设置，并按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Execution上的说明进行操作我卡在了第5步，即当我运行命令时bin/hdfsdfs-putetc/hadoopinput我收到以下错误。15/02/0200:35:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...u

directory hadoop section code mapreduce hdfs hadoop2

hadoop - 'distcp' 和 'distcp -update' 之间的区别？

有什么区别hadoopdistcp和hadoopdistcp-update他们都做同样的工作，只是我们称呼他们的方式略有不同。它们都不会覆盖目标中已经存在的文件。那么两组不同的命令有什么意义呢？最佳答案 distcp和distcp-update之间的区别在于distcp默认情况下会跳过文件，而如果src大小与dst大小不同，“distcp-update”将更新文件。这在文档中有点困惑，因为distcp的默认特性是如果文件存在则跳过以防止冲突。来自文档:“如前所述，这不是“同步”操作。检查的唯一标准是源文件和目标文件的大小；如果它们

amp distcp section code hadoop mapreduce hdfs

sql - 配置单元中 `load data inpath ` 和 `location` 之间的区别？

在我的公司，我经常看到这两个命令，我想知道它们之间的区别，因为它们的功能对我来说似乎是一样的:1createtable(namestring,numberdouble);loaddatainpath'/directory-path/file.csv'into;2createtable(namestring,numberdouble);location'/directory-path/file.csv';它们都将数据从HDFS上的目录复制到HIVE上的表目录中。使用这些时是否应该注意差异？谢谢你。最佳答案是的，它们的用途完全不同。

配置单 location strong section code sql hadoop hive hdfs hiveql

hadoop - 我如何确保数据在 hadoop 节点之间均匀分布？

如果我将数据从本地系统复制到HDFS，我能否确保它在节点之间均匀分布？PSHDFS保证每个block将存储在3个不同的节点上。但这是否意味着我文件的所有block都将在相同的3个节点上排序？或者HDFS会为每个新block随机选择它们吗？最佳答案如果您的复制设置为3，它将被放置在3个独立的节点上。它所在的节点数由您的复制因子控制。如果您想要更大的分布，那么您可以通过编辑$HADOOP_HOME/conf/hadoop-site.xml并更改dfs.replication值来增加复制数。我相信新block几乎是随机放置的。需要考虑

hadoop 均匀 section block hdfs

Hadoop 2.x——如何配置辅助名称节点？

我有一个旧的Hadoop安装，我希望更新到Hadoop2。在旧设置，我有一个$HADOOP_HOME/conf/masters文件指定二级名称节点。查看Hadoop2文档我找不到任何提及“masters”文件，或如何设置辅助名称节点。如能提供正确方向的任何帮助，我们将不胜感激。最佳答案 conf文件夹中的slaves和masters文件仅供bin文件夹中的一些脚本使用，如start-mapred.sh、start-dfs.sh和start-all.sh脚本。这些脚本只是为了方便，因此您可以从单个节点运行它们以通过ssh连接到每个主

mdash 辅助 section Hadoop start hdfs

93 94 959697 98 99