草庐IT

hdfs_clusters

全部标签

java - 将大型 gzip 数据文件上传到 HDFS

我有一个用例,我想在HDFS上上传大的gzip文本数据文件(~60GB)。我下面的代码需要大约2个小时才能以500MB的block上传这些文件。以下是伪代码。我正在检查是否有人可以帮助我减少这个时间:i)intfileFetchBuffer=500000000;System.out.println("文件获取缓冲区为:"+fileFetchBuffer);int偏移量=0;intbytesRead=-1;try{fileStream=newFileInputStream(file);if(fileName.endsWith(".gz")){stream=newGZIPInputStre

hadoop - 将数据同步到 HBase/HDFS 并将其用作 MapReduce 作业的输入

我想将数据同步到Hadoop文件系统。此数据旨在用作计划的MapReduce作业的输入。这个例子可能会解释更多:假设我有一个包含一堆词的文档输入流,这些词需要作为MapReduceWordCount作业的输入。因此,对于每个文档,所有的单词都应该被解析出来并上传到文件系统。但是,如果同一文档再次从输入流到达,我只希望从文件系统上传(或删除)更改。数据应该如何存储;我应该使用HDFS还是HBase?数据量不是很大,大概几GB。是否可以使用来自HDFS和/或HBase的输入启动计划的MapReduce作业? 最佳答案 我会首先选择最适合

无法使用 hadoop fs -ls har ://hdfs-master/tank/zoo. har/查找 Hadoop 归档文件

这是我在hdfs上的文件:hadoopfs-ls/Found5items-rw-r--r--3hadoopsupergroup252016-04-1811:29/abc.txtdrwxr-xr-x-hadoopsupergroup02016-04-1711:39/hbasedrwxr-xr-x-hadoopsupergroup02016-04-1811:49/tankdrwx-------hadoopsupergroup02016-04-1811:30/tmp-rw-r--r--3hadoopsupergroup662016-04-1811:29/user.txthadoopfs-ls

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版,我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时,它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d

hadoop - Log4j 不写入 HDFS/Log4j.properties

基于以下配置,我希望我的log4j应该写入HDFS文件夹(/myfolder/mysubfolder)。但它甚至没有创建具有给定名称hadoop9.log的文件。我尝试在hdfs上手动创建hadoop9.log。还是不行。我是否遗漏了log4j.properties中的任何内容?#Definesomedefaultvaluesthatcanbeoverriddenbysystempropertieshadoop.root.logger=INFO,console,RFA,DRFAhadoop.log.dir=/myfolder/mysubfolderhadoop.log.file=had

hadoop - Hive 不在 HDFS 中存储仓库

我已经在我的本地系统上下载了hive安装并将hive-site.xml复制到Sparkconf目录中。我尝试使用sparkshell在Hive上下文中创建一个托管表。我在hive-site.xml中放置了以下属性(存在于spark的conf目录中):hive.metastore.warehouse.dir/user/hive/warehouse此外,我已将HADOOP_HOME放入spark-env.sh中:exportHADOOP_CONF_DIR=/opt/hadoop/conf根据Hive文档,Hive仓库应该存储在HDFS中,但仓库存储在本地驱动器(/user/hive/war

hadoop - 在 HDFS 中写入文件的剖析

以下是“HDFS文件写入剖析”中Hadoop权威指南中的句子。不太清楚,有人可以提供更多详细信息吗?如果在向其写入数据时任何数据节点发生故障,则会采取以下操作,这些操作对写入数据的客户端是透明的。首先,关闭管道,将ack队列中的任何数据包添加到数据队列的前面,以便故障节点下游的数据节点不会丢失任何数据包。Q.)“故障节点下游的数据节点不会丢失任何数据包”是什么意思?任何人都可以解释更多细节。当客户端完成写入数据时,它会在流上调用close()。此操作将所有剩余的数据包刷新到数据节点管道并等待确认,然后联系名称节点以发出文件已完成的信号。Q.)“actionflushalltherema

java - 分几步写入 HDFS 文件的效率如何?

我知道HDFSblock大小为64MB。但是假设我创建了一个新的HDFS文件,并继续向其中写入数据,但一次只写入了4KB的数据。那会不会效率很低?到最后我的文件可能有1GB大小,但是一点一点地写入数据是否会使写入这样的文件效率低下?我的意思是,在写入文件之前缓冲我的数据是否重要。例如,在这种情况下,我可以不断地将数据累积到一个缓冲区中,直到它达到64MB的大小,然后将其写入HDFS文件,并在清除该缓冲区后重复该过程。 最佳答案 首先,HDFSblock大小由您决定,默认值是可配置的,您可以在将文件放入HDFS时为给定文件设置不同的b

java - 在 Hadoop 2 中从 Java 远程读取 HDFS 文件时出现 BlockMissingException

我使用的是Hadoop2.6,我有一个安装了HDFS的虚拟机集群。我正在尝试通过在我的本地运行的一些Java代码远程读取我的HDFS中的文件,以基本方式,使用BufferedReaderFileSystemfs=null;StringhadoopLocalPath="/path/to/my/hadoop/local/folder/etc/hadoop";ConfigurationhConf=newConfiguration();hConf.addResource(newPath(hadoopLocalPath+File.separator+"core-site.xml"));hConf

hadoop - Spark 作业失败,因为 HDFS 正在缓存 jar

我将Scala/Sparkjar上传到HDFS以在我们的集群上测试它们。运行后,我经常意识到需要做出一些改变。所以我在本地进行更改,然后将新的jar推送回HDFS。然而,当我这样做时,hadoop经常(并非总是)抛出一个错误,本质上是说这个jar与旧jar不同(duh)。我尝试清除我的回收站、.staging和.sparkstaging目录,但这没有任何作用。我尝试重命名jar,这有时会起作用,有时却不起作用(这仍然很荒谬,我必须首先这样做)。有谁知道为什么会发生这种情况以及如何防止这种情况发生?谢谢你的帮助。如果有帮助,这里有一些日志(编辑了一些路径):Applicationappl