草庐IT

hadoop - 没有 Map/Reduce 的 HDFS 分布式读取

是否可以在一台机器上使用HDFS客户端实现从HDSF集群的分布式读取?我用一个由3个数据节点(DN1、DN2、DN3)组成的集群进行了实验。然后我从位于DN1上的客户端程序运行10个同时读取10个独立文件,它似乎只从DN1读取数据。其他数据节点(DN2、DN3)显示为零事件(从调试日志判断)。我检查了所有文件的block是否在所有3个数据节点上都被复制了,所以如果我关闭DN1,那么数据将从DN2读取(仅DN2)。增加读取的数据量没有帮助(尝试从2GB到30GB)。由于我需要读取多个大文件并仅从中提取少量数据(几Kb),因此我想避免使用map/reduce,因为它需要设置更多服务并且还需

java - 使用 Java 访问 HDFS 中的文件

我正在尝试使用JavaAPI访问HDFS中的文件,但每次我都找不到文件。我用来访问的代码是:-Configurationconf=newConfiguration();conf.addResource(FileUtilConstants.ENV_HADOOP_HOME+FileUtilConstants.REL_PATH_CORE_SITE);conf.addResource(FileUtilConstants.ENV_HADOOP_HOME+FileUtilConstants.REL_PATH_HDFS_SITE);try{FileSystemfs=FileSystem.get(co

java - block 池 <registering> 初始化失败(Datanode Uuid 未分配)

此错误的来源是什么以及如何修复?2015-11-2919:40:04,670FATALorg.apache.hadoop.hdfs.server.datanode.DataNode:InitializationfailedforBlockpool(DatanodeUuidunassigned)servicetoanmol-vm1-new/10.0.1.190:8020.Exiting.java.io.IOException:Allspecifieddirectoriesarenotaccessibleordonotexist.atorg.apache.hadoop.hdfs.serve

hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

我知道HBASE是一个列式数据库,将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读取/写入,并且有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题:1)在HBASE之上分层Spark而不是单独使用HBASE带来了哪些附加功能?这仅取决于程序员的能力,或者是否有任何性能理由这样做?有没有Spark可以做而HBASE不能做的事情?2)源于上一个问题,什么时候应该在HDFS和SPARK之间添加HBASE而不是直接使用HDFS? 最佳答案 1)Whataretheaddedcapabili

hadoop - Namenode-HDFS "Connection refused"错误(Hadoop 问题)

当我们看到使用jps命令时,我的所有节点都已启动并正在运行,但我仍然无法连接到hdfs文件系统。每当我在HadoopNamenodelocalhost:8020页面上单击Browsethefilesystem时,我得到的错误是ConnectionRefused。我也尝试过格式化并重新启动名称节点,但错误仍然存​​在。谁能帮我解决这个问题。 最佳答案 检查您的所有服务是否都在运行JobTracker、Jps、NameNode。DataNode、TaskTracker通过运行jps命令。尝试一个一个地运行它们:./bin/stop-al

hadoop - HDFS 错误放置 : `input' : No such file or directory

我已经安装了hadoop2.6.0,并且正在试用它。我正在尝试伪分布式设置,并按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Execution上的说明进行操作我卡在了第5步,即当我运行命令时bin/hdfsdfs-putetc/hadoopinput我收到以下错误。15/02/0200:35:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...u

hadoop - 'distcp' 和 'distcp -update' 之间的区别?

有什么区别hadoopdistcp和hadoopdistcp-update他们都做同样的工作,只是我们称呼他们的方式略有不同。它们都不会覆盖目标中已经存在的文件。那么两组不同的命令有什么意义呢? 最佳答案 distcp和distcp-update之间的区别在于distcp默认情况下会跳过文件,而如果src大小与dst大小不同,“distcp-update”将更新文件。这在文档中有点困惑,因为distcp的默认特性是如果文件存在则跳过以防止冲突。来自文档:“如前所述,这不是“同步”操作。检查的唯一标准是源文件和目标文件的大小;如果它们

sql - 配置单元中 `load data inpath ` 和 `location` 之间的区别?

在我的公司,我经常看到这两个命令,我想知道它们之间的区别,因为它们的功能对我来说似乎是一样的:1createtable(namestring,numberdouble);loaddatainpath'/directory-path/file.csv'into;2createtable(namestring,numberdouble);location'/directory-path/file.csv';它们都将数据从HDFS上的目录复制到HIVE上的表目录中。使用这些时是否应该注意差异?谢谢你。 最佳答案 是的,它们的用途完全不同。

hadoop - 我如何确保数据在 hadoop 节点之间均匀分布?

如果我将数据从本地系统复制到HDFS,我能否确保它在节点之间均匀分布?PSHDFS保证每个block将存储在3个不同的节点上。但这是否意味着我文件的所有block都将在相同的3个节点上排序?或者HDFS会为每个新block随机选择它们吗? 最佳答案 如果您的复制设置为3,它将被放置在3个独立的节点上。它所在的节点数由您的复制因子控制。如果您想要更大的分布,那么您可以通过编辑$HADOOP_HOME/conf/hadoop-site.xml并更改dfs.replication值来增加复制数。我相信新block几乎是随机放置的。需要考虑

Hadoop 2.x——如何配置辅助名称节点?

我有一个旧的Hadoop安装,我希望更新到Hadoop2。在旧设置,我有一个$HADOOP_HOME/conf/masters文件指定二级名称节点。查看Hadoop2文档我找不到任何提及“masters”文件,或如何设置辅助名称节点。如能提供正确方向的任何帮助,我们将不胜感激。 最佳答案 conf文件夹中的slaves和masters文件仅供bin文件夹中的一些脚本使用,如start-mapred.sh、start-dfs.sh和start-all.sh脚本。这些脚本只是为了方便,因此您可以从单个节点运行它们以通过ssh连接到每个主