草庐IT

HDFS_NAMENODE

全部标签

hadoop - Oozie shell 操作可以在 HDFS 上创建输出文件吗?

我是Oozie和Hadoop的新手。我想问问我是否可以在Oozie中运行shell操作并将输出存储到Hadoop分布式文件系统上的文件中。 最佳答案 当然-使用以下作为shell操作的脚本:#!/bin/bashecho"foo">output.txthdfsdfs-moveFromLocaloutput.txt/your/path/in/hdfs 关于hadoop-Oozieshell操作可以在HDFS上创建输出文件吗?,我们在StackOverflow上找到一个类似的问题:

hadoop - 从 Windows 将文件传入和传出 HDFS

我需要一种方法从不属于集群的节点将文件传入和传出HDFS。是一个用户界面,有一个浏览按钮来做到这一点吗?我正在使用一台Windows机器,我需要从那里传输到HDFS。 最佳答案 我觉得hoop可以帮到你。https://github.com/cloudera/hoopHoop,HadoopHDFSoverHTTPHoopisaserverthatprovidesaRESTHTTPgatewaytoHDFSwithfullread&writecapabilities.HoopisdistributedunderApacheLicens

hadoop - HDFS伪分布式模式namenodes启动报错

我正在尝试以伪分布式模式在MacOSX(Java7)上启动HDFS。我按照在不同地方找到的说明(例如https://hadoop.apache.org/docs/r1.2.1/single_node_setup.html)创建了一个包含配置文件的目录。我可以在不需要密码的情况下通过ssh连接到本地主机。但是当我尝试启动hdfs时,我得到以下信息:$start-dfs.sh--config~/hadoop-pseudodistributed2014-03-1201:15:14.125java[84567:1903]UnabletoloadrealminfofromSCDynamicSto

java - 将大型 gzip 数据文件上传到 HDFS

我有一个用例,我想在HDFS上上传大的gzip文本数据文件(~60GB)。我下面的代码需要大约2个小时才能以500MB的block上传这些文件。以下是伪代码。我正在检查是否有人可以帮助我减少这个时间:i)intfileFetchBuffer=500000000;System.out.println("文件获取缓冲区为:"+fileFetchBuffer);int偏移量=0;intbytesRead=-1;try{fileStream=newFileInputStream(file);if(fileName.endsWith(".gz")){stream=newGZIPInputStre

Hadoop HA部署过程中出现主备namenode或datanode挂掉的问题

在部署HadoopHA的过程时,当进行到hdfsnamenode-format格式化这一步骤时显示org.apache.hadoop.hdfs.qjournal.client.QuorumException:UnabletocheckifJNsarereadyforformatting.1exceptionsthrown:拒绝连接查阅多篇文章分析可知其原因是节点之间无法通信,所以无法建立连接解决方法1.首先查看配置文件hdfs中dfs.namenode.shared.edits.dir是否出错2.查看zk集群是否启动,其次查看master和slave1上的journalnode是否启动3.查阅

hadoop - 将数据同步到 HBase/HDFS 并将其用作 MapReduce 作业的输入

我想将数据同步到Hadoop文件系统。此数据旨在用作计划的MapReduce作业的输入。这个例子可能会解释更多:假设我有一个包含一堆词的文档输入流,这些词需要作为MapReduceWordCount作业的输入。因此,对于每个文档,所有的单词都应该被解析出来并上传到文件系统。但是,如果同一文档再次从输入流到达,我只希望从文件系统上传(或删除)更改。数据应该如何存储;我应该使用HDFS还是HBase?数据量不是很大,大概几GB。是否可以使用来自HDFS和/或HBase的输入启动计划的MapReduce作业? 最佳答案 我会首先选择最适合

无法使用 hadoop fs -ls har ://hdfs-master/tank/zoo. har/查找 Hadoop 归档文件

这是我在hdfs上的文件:hadoopfs-ls/Found5items-rw-r--r--3hadoopsupergroup252016-04-1811:29/abc.txtdrwxr-xr-x-hadoopsupergroup02016-04-1711:39/hbasedrwxr-xr-x-hadoopsupergroup02016-04-1811:49/tankdrwx-------hadoopsupergroup02016-04-1811:30/tmp-rw-r--r--3hadoopsupergroup662016-04-1811:29/user.txthadoopfs-ls

hadoop - Log4j 不写入 HDFS/Log4j.properties

基于以下配置,我希望我的log4j应该写入HDFS文件夹(/myfolder/mysubfolder)。但它甚至没有创建具有给定名称hadoop9.log的文件。我尝试在hdfs上手动创建hadoop9.log。还是不行。我是否遗漏了log4j.properties中的任何内容?#Definesomedefaultvaluesthatcanbeoverriddenbysystempropertieshadoop.root.logger=INFO,console,RFA,DRFAhadoop.log.dir=/myfolder/mysubfolderhadoop.log.file=had

hadoop - Hive 不在 HDFS 中存储仓库

我已经在我的本地系统上下载了hive安装并将hive-site.xml复制到Sparkconf目录中。我尝试使用sparkshell在Hive上下文中创建一个托管表。我在hive-site.xml中放置了以下属性(存在于spark的conf目录中):hive.metastore.warehouse.dir/user/hive/warehouse此外,我已将HADOOP_HOME放入spark-env.sh中:exportHADOOP_CONF_DIR=/opt/hadoop/conf根据Hive文档,Hive仓库应该存储在HDFS中,但仓库存储在本地驱动器(/user/hive/war

hadoop - 在 HDFS 中写入文件的剖析

以下是“HDFS文件写入剖析”中Hadoop权威指南中的句子。不太清楚,有人可以提供更多详细信息吗?如果在向其写入数据时任何数据节点发生故障,则会采取以下操作,这些操作对写入数据的客户端是透明的。首先,关闭管道,将ack队列中的任何数据包添加到数据队列的前面,以便故障节点下游的数据节点不会丢失任何数据包。Q.)“故障节点下游的数据节点不会丢失任何数据包”是什么意思?任何人都可以解释更多细节。当客户端完成写入数据时,它会在流上调用close()。此操作将所有剩余的数据包刷新到数据节点管道并等待确认,然后联系名称节点以发出文件已完成的信号。Q.)“actionflushalltherema