草庐IT

hdfs_rtp

全部标签

list - 如何递归列出 HDFS 的子目录?

我在HDFS中递归地创建了一组目录。如何列出所有目录?对于普通的unix文件系统,我可以使用下面的命令来做到这一点find/path/-typed-print但我想为HDFS获得类似的东西。 最佳答案 要递归地列出目录内容,可以使用hadoopdfs-lsr/dirname命令。要仅过滤目录,您可以在上述命令的输出中grep"drwx"(因为所有者对目录具有rwx权限)。因此整个命令将如下所示。$hadoopdfs-lsr/sqoopO7|grepdrwx 关于list-如何递归列出HD

hadoop - 没有 Map/Reduce 的 HDFS 分布式读取

是否可以在一台机器上使用HDFS客户端实现从HDSF集群的分布式读取?我用一个由3个数据节点(DN1、DN2、DN3)组成的集群进行了实验。然后我从位于DN1上的客户端程序运行10个同时读取10个独立文件,它似乎只从DN1读取数据。其他数据节点(DN2、DN3)显示为零事件(从调试日志判断)。我检查了所有文件的block是否在所有3个数据节点上都被复制了,所以如果我关闭DN1,那么数据将从DN2读取(仅DN2)。增加读取的数据量没有帮助(尝试从2GB到30GB)。由于我需要读取多个大文件并仅从中提取少量数据(几Kb),因此我想避免使用map/reduce,因为它需要设置更多服务并且还需

java - 使用 Java 访问 HDFS 中的文件

我正在尝试使用JavaAPI访问HDFS中的文件,但每次我都找不到文件。我用来访问的代码是:-Configurationconf=newConfiguration();conf.addResource(FileUtilConstants.ENV_HADOOP_HOME+FileUtilConstants.REL_PATH_CORE_SITE);conf.addResource(FileUtilConstants.ENV_HADOOP_HOME+FileUtilConstants.REL_PATH_HDFS_SITE);try{FileSystemfs=FileSystem.get(co

hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

我知道HBASE是一个列式数据库,将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读取/写入,并且有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题:1)在HBASE之上分层Spark而不是单独使用HBASE带来了哪些附加功能?这仅取决于程序员的能力,或者是否有任何性能理由这样做?有没有Spark可以做而HBASE不能做的事情?2)源于上一个问题,什么时候应该在HDFS和SPARK之间添加HBASE而不是直接使用HDFS? 最佳答案 1)Whataretheaddedcapabili

hadoop - Namenode-HDFS "Connection refused"错误(Hadoop 问题)

当我们看到使用jps命令时,我的所有节点都已启动并正在运行,但我仍然无法连接到hdfs文件系统。每当我在HadoopNamenodelocalhost:8020页面上单击Browsethefilesystem时,我得到的错误是ConnectionRefused。我也尝试过格式化并重新启动名称节点,但错误仍然存​​在。谁能帮我解决这个问题。 最佳答案 检查您的所有服务是否都在运行JobTracker、Jps、NameNode。DataNode、TaskTracker通过运行jps命令。尝试一个一个地运行它们:./bin/stop-al

hadoop - HDFS 错误放置 : `input' : No such file or directory

我已经安装了hadoop2.6.0,并且正在试用它。我正在尝试伪分布式设置,并按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Execution上的说明进行操作我卡在了第5步,即当我运行命令时bin/hdfsdfs-putetc/hadoopinput我收到以下错误。15/02/0200:35:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...u

Hadoop安装错误, "error : cannot execute hdfs-config.sh."

我正在关注this在我的电脑上安装hadoop的教程。据我所知,在source~/.profile之前,我一直完全按照说明操作,但是当我尝试通过输入hdfsnamenode-format来格式化HDFS时,它给了我以下错误:ERROR:Cannotexecute/usr/local/Cellar/hadoop/3.0.0/libexec/hdfs-config.sh我尝试了很多方法在互联网上寻找解决方案,但没有找到解决方案。 最佳答案 @BIKI我刚遇到同样的问题,Hadoop版本3.0.0有一个奇怪的文件结构,不能按照您认为的方式

hadoop - 无法在从 HDFS 读取 CSV 的 HIVE 中创建表

通过从HDFS读取.csv文件在Hive中创建表时遇到问题。查询如下:CREATEEXTERNALTABLEtestmail(memberIdString,emailString,sentdateString,actiontypeString,actiondateString,campaignidString,campaignnameString)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LOCATION'/user/hadoop/cloudera/ameeth/ca_email.csv';获取错误。元数据错误:MetaException(messa

java - 在 Java 中尝试从 HDFS 读取文件时出现 "Wrong FS... expected: file:///"

我无法使用Java从HDFS读取文件:StringhdfsUrl="hdfs://:";Configurationconfiguration=newConfiguration();configuration.set("fs.defaultFS",hdfsUrl);FileSystemfs=FileSystem.get(configuration);PathfilePath=newPath(hdfsUrl+"/projects/harmonizome/data/achilles/attribute_list_entries.txt.gz");FSDataInputStreamfsData

hadoop - 如何在 Ubuntu 14.04 上挂载 HDFS

所以,我无法在Ubuntu14.04上挂载HDFS。Mucommander不工作,fuse不工作,有人可以用图像解释我或给我一些教程。谢谢,最好的问候。 最佳答案 我今天使用instructionsonClouderasite成功完成了它wgethttp://archive.cloudera.com/cdh5/one-click-install/trusty/amd64/cdh5-repository_1.0_all.debsudodpkg-icdh5-repository_1.0_all.debsudoapt-getupdates