草庐IT

HDFS_NAMENODE

全部标签

csv - 如何创建具有多个 hdfs 文件的 Hive 表

所以基本上我想创建一个包含csv文件的表我试过这样的事情,其中​​文件名彼此仅相差最后两位:CREATEEXTERNALTABLEpageviews(page_datestring,sitestring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY';'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'/user/hue/201401/pageviews/supersite_1046_201401**.csv';对我来说,这个语法看起来不错,但是当我执行它时,我得到以下信息:Erroroccurredexecutin

xml - Impala 可以查询存储在 Hadoop/HDFS 中的 XML 文件吗

我正在研究Hadoop/Impala组合是否能满足我的归档、批处理和实时即席查询要求。我们会将XML文件(格式良好并符合我们自己的XSD模式)持久化到Hadoop中,并使用MapReduce处理日终批处理查询等。对于需要低延迟和相对高延迟的临时用户查询和应用程序查询我们正在考虑Impala的性能。我想不通的是Impala如何理解XML文件的结构,以便它可以有效地查询。Impala能否用于以有意义的方式跨XML文档进行查询?提前致谢。 最佳答案 Hive和Impala实际上并没有处理XML文件的机制(这很奇怪,考虑到大多数数据库都支持

hadoop - 将新组添加到 hdfs

SoThereishdfs:hdfsuser/groupexistshadoopcluster还有其他用户分配给hdfs,它提供对文件系统的写入和读取访问权限如何创建一个新组并将现有用户添加到该组,并具有对文件系统的读写访问权限? 最佳答案 HDFS在其文件系统中不维护单独的用户/组,而是像unix一样在底层操作系统中使用用户/组。如果您创建一个也可以在hdfs中使用的unix用户/组。无需在集群所有节点创建用户/组,只需要在访问hdfs文件系统的节点创建用户/组即可。在unix中创建用户/组后。使用以下命令更改文件/目录的所有者:

hadoop - 如何使用 gedit 打开 HDFS 输出文件?

我已经在我的系统(Ubuntu14.04)中成功安装并执行了一个mapreduce程序。我可以看到输出文件,hadoopuser@arul-PC:/usr/local/hadoop$bin/hadoopdfs-ls/user/hadoopuser/MapReduceSample-outputFound3items-rw-r--r--1hadoopusersupergroup02014-07-0916:10/user/hadoopuser/MapReduceSample-output/_SUCCESSdrwxr-xr-x-hadoopusersupergroup02014-07-0916

hadoop - sink.hdfs writer 在我的文本文件中添加垃圾

我已成功配置flume以将文本文件从本地文件夹传输到hdfs。我的问题是当这个文件被传输到hdfs时,一些不需要的文本“hdfs.write.Longwriter+binarycharacters”在我的文本文件中有前缀。这是我的flume.confagent.sources=flumedumpagent.channels=memoryChannelagent.sinks=flumeHDFSagent.sources.flumedump.type=spooldiragent.sources.flumedump.spoolDir=/opt/test/flume/flumedump/age

hadoop - 更改 Hadoop HDFS 数据节点服务器的 IP 地址并避免 block 池错误

我正在使用Hadoop的cloudera发行版,最近不得不更改集群中几个节点的IP地址。更改后,在其中一个节点(旧IP:10.88.76.223,新IP:10.88.69.31)上尝试启动数据节点服务时出现以下错误。InitializationfailedforblockpoolBlockpoolBP-77624948-10.88.65.174-13492342342(storageidDS-820323624-10.88.76.223-50010-142302323234)servicetohadoop-name-node-01/10.88.65.174:6666org.apache

java - 我怎样才能用java在hdfs中创建一个新目录?

publicstaticvoidmain(String[]args)throwsIOException,URISyntaxException{配置config=newConfiguration();config.set("fs.default.name","hdfs://127.0.0.1:50070/dfshealth.jsp");FileSystemdfs=FileSystem.get(config);StringdirName="TestDirectory";Pathsrc=newPath(dfs.getWorkingDirectory()+"/"+dirName);dfs.mk

hadoop - Spark : Out Of Memory Error when I save to HDFS

我在保存大数据到hdfs时出现OOMEvalaccumulableCollection=sc.accumulableCollection(ArrayBuffer[String]())valrdd=textfile.filter(row=>{if(row.endsWith(",")){accumulableCollection+=rowfalse}elseif(row.length{varvalid=truefor((k,v)我在spark-submit中使用这个:--num-executors2--driver-memory1G--executor-memory1G--executor

Hadoop 安装 : Namenode cannot be started

目前我正在尝试在我的ubuntu14.10(32位utopic)上安装hadoop-2.6.0。我按照这里的说明操作:http://www.itzgeek.com/how-tos/linux/ubuntu-how-tos/install-apache-hadoop-ubuntu-14-10-centos-7-single-node-cluster.html#axzz3X2DuWaxQ但是格式化namenode时,namenode无法启动。这是我在尝试执行hdfs或hadoopnamenode格式时不断收到的信息:15/04/1116:32:13FATALnamenode.NameNod

java - Hadoop的Hive/Pig、HDFS和MapReduce的关系

我对ApacheHive的理解是它是一个类似SQL的工具层,用于查询Hadoop集群。我的理解ApachePig是它是一种用于查询Hadoop集群的过程语言。因此,如果我的理解是正确的,Hive和Pig似乎是解决同一问题的两种不同方法。但是,我的问题是,我不理解他们首先要解决的问题!假设我们有一个DB(关系型、NoSQL,无关紧要)将数据馈送到HDFS,以便可以针对该输入数据运行特定的MapReduce作业:我对Hive/Pig正在查询的系统感到困惑!他们在查询数据库吗?他们是否查询存储在HDFS上DataNode中的原始输入数据?他们是否正在运行一些临时的、即时的MR作业并报告他们的