hdfs_clusters

hadoop - 通过 IP 连接到 cloudera 虚拟机中的 Hadoop HDFS

我正在寻找通过hdfs的服务器地址连接到cloudera虚拟机上的hadoop实例。有谁知道如何找到这个的IP地址吗？如果没有，我如何在本地连接到虚拟机中的hdfs，因为它们都在同一台计算机上运行。需要为pentahokettle连接执行此操作。最佳答案如果您尝试配置PentahoDataIntegration(Kettle)以使用HDFS作为输入数据源，那么首先您需要获取HDFSNameNode服务的主机名/IP地址和端口号，您将然后进入(Pentaho)Spoon(Kettle的GUI)。获取HDFSNameNodeIP

hadoop - HDFS 如何在磁盘上分配存储空间

我很好奇HDFS是如何在Data节点上预留和分配存储空间的。假设我在其中一个数据节点中有500GB的硬盘，其中400GB分配给/data分区，据说hadoop就放在上面。此处hadoop守护进程将占用400GB中的多少空间来存储输入拆分(block)。它是预先保留所有存储空间还是按需分配？并且还想知道在设置集群时格式化名称节点是否与此有关。非常感谢... 最佳答案 dfs.datanode.data.dir属性决定了DFS数据节点应该在本地文件系统中的什么地方存储它的block。如果这是一个逗号分隔的目录列表，那么数据将存储在所有命

何在 hadoop section block stackoverflow hdfs

Node.js 和 HDFS

我需要阅读有关node.js和HDFS的信息。我和Centos一起工作。我在HDFS中有一个文件，我想在控制台中读取和打印它。我写了一个node.js程序来写一个文件，它可以工作。但是当我想打印一个HDFS文件时，它不起作用。这是我的代码:varWebHDFS=require('webhdfs');varhdfs=WebHDFS.createClient({user:'webuser',host:'localhost',port:80,path:'/user/cloudera/consultaBicing/numerobicis'});varfs=require('fs');fs.re

Node HDFS 39 section console node.js hadoop webhdfs

hadoop - Hbase 因 HDFS 日志问题而崩溃

我并没有很成功地弄清楚这条错误消息的含义。我对HDFS和HBase也很陌生，所以这是问题的一部分。除了HDFS服务器空间不足的可能性之外，还有可能导致此错误的原因:2014-06-1312:55:33,164WARNorg.apache.hadoop.hbase.regionserver.wal.HLogSplitter:Couldnotopenhdfs://:8020/hbase/.logs/,60020,1402678303659-splitting/m%2C60020%2C1402678303659.1402678319050forreading.Fileisemptyjava.

hadoop Hbase apache regionserver hdfs

hadoop - 连接到 HDFS Namenode 的问题

在新的hadoop单节点安装之后，我在hadoop-root-datanode-localhost.localdomain.log中得到以下错误2014-06-1823:43:23,594ERRORorg.apache.hadoop.security.UserGroupInformation:PriviledgedActionExceptionas:rootcause:java.net.ConnectException:Calltolocalhost/127.0.0.1:54310failedonconnectionexception:java.net.ConnectException

Namenode hadoop section code hdf

hadoop - 如果我们使用 DistCp 命令， block 大小从 Cluster1 到 Cluster2 有何变化？

我正在处理“DistCp”命令以将一些关键文件从MyCluster1移动到Cluster2。这些关键文件之前以64MB的Blocksize驻留。现在转移到Cluster2[它有128MB的block大小]。在DistCp移动之后，关键文件性能将如何随着Cluster2中的新block大小而增加..性能增加或减少..？？？最佳答案这取决于您的文件。Hadoop文件应该按顺序读取，如果您的文件很大(比如Gbs或Tbs)，如果您增加block大小，它会提高性能，因为它会减少要执行的任务数量。使用Distcp进行复制不会保留文件的blo

Cluster Cluster1 section block hadoop distcp

scala - 烫伤教程: HDFS rsync errors

请帮助理解在Hadoop上运行不成功的Scalding的输出。我从git获得了最新的Scalding发行版:git克隆https://github.com/twitter/scalding.git在scalding目录中的sbtassembly之后，我尝试使用命令运行教程:scripts/scald.rb--hdfstutorial/Tutorial0.scala结果我得到了以下错误:scripts/scald.rb:194:warning:alreadyinitializedconstantSCALA_LIB_DIRrsyncing19.8Mfromscalding-core-ass

烫伤 errors commons jar maven scala hadoop hdfs scalding

hadoop - 使用 Oozie 将 hdfs 文件映射到 HBase

我正在尝试从Oozie启动一个shell作业，我将文件从hdfs映射到HbaseShell脚本在命令行下工作，但在Oozie下不工作外壳脚本:HADOOP_CLASSPATH=`/usr/bin/hbaseclasspath`/usr/bin/hadoopjar/usr/lib/hbase/hbase-server.jarimporttsv-Dimporttsv.separator=,-Dimporttsv.columns=ORIGINAL:FIELD1,ORIGINAL:FIELD2,ORIGINAL:FIELD3HBASE_Table/user/U0H8048/file错误是:SL

hadoop Oozie java NativeMethodAccessorImpl reflect hbase hdfs

hadoop - hdfs 架构 - 谁做输入文件拆分

我是hadoop的新手。我对谁负责拆分输入文件感到困惑。假设我有一个200MB的文件，block大小为64MB。所以我们需要总共4个block乘以复制因子。谁拆分文件以及拆分文件如何提供给客户端以便能够写入数据节点。如果可能，请提供此信息的链接？我尝试使用谷歌搜索，但没有成功找到hadoop架构的详分割步说明。有几个网站，但缺少详细信息。最佳答案虽然多年来一些细节发生了变化，但这两个文档(由参与HDFS早期开发的人员撰写)很好地描述了HDFS中的工作原理:http://www.aosabook.org/en/hdfs.htmlh

hadoop hdfs section architecture

hadoop - 有没有办法在删除文件时将 skipTrash 选项插入 oozie fs (HDFS) 操作？

根据oozie文档，FS(HDFS)操作支持的命令是移动、删除和mkdir。如果我想使用删除命令，有没有办法提到skipTrash选项。https://oozie.apache.org/docs/3.2.0-incubating/WorkflowFunctionalSpec.html#a3.2.4_Fs_HDFS_action 最佳答案 FSAction的删除命令不支持使用用户的垃圾目录。以这种方式删除的所有路径将从文件系统中完全删除。要在使用用户垃圾目录时删除文件，可以创建调用hdfsdfs-rm的shell操作。通过检查fs.t

skipTrash hadoop section oozie https

107 108 109110111 112 113