hdfs_clusters

java - 将大型 gzip 数据文件上传到 HDFS

我有一个用例，我想在HDFS上上传大的gzip文本数据文件(~60GB)。我下面的代码需要大约2个小时才能以500MB的block上传这些文件。以下是伪代码。我正在检查是否有人可以帮助我减少这个时间:i)intfileFetchBuffer=500000000;System.out.println("文件获取缓冲区为:"+fileFetchBuffer);int偏移量=0;intbytesRead=-1;try{fileStream=newFileInputStream(file);if(fileName.endsWith(".gz")){stream=newGZIPInputStre

传到大型 charsLeft bytesRead section java hadoop hdfs gzipinputstream

hadoop - 将数据同步到 HBase/HDFS 并将其用作 MapReduce 作业的输入

我想将数据同步到Hadoop文件系统。此数据旨在用作计划的MapReduce作业的输入。这个例子可能会解释更多:假设我有一个包含一堆词的文档输入流，这些词需要作为MapReduceWordCount作业的输入。因此，对于每个文档，所有的单词都应该被解析出来并上传到文件系统。但是，如果同一文档再次从输入流到达，我只希望从文件系统上传(或删除)更改。数据应该如何存储；我应该使用HDFS还是HBase？数据量不是很大，大概几GB。是否可以使用来自HDFS和/或HBase的输入启动计划的MapReduce作业？最佳答案我会首先选择最适合

并将用作 section 的 MapReduce hadoop hbase hdfs

无法使用 hadoop fs -ls har ://hdfs-master/tank/zoo. har/查找 Hadoop 归档文件

这是我在hdfs上的文件:hadoopfs-ls/Found5items-rw-r--r--3hadoopsupergroup252016-04-1811:29/abc.txtdrwxr-xr-x-hadoopsupergroup02016-04-1711:39/hbasedrwxr-xr-x-hadoopsupergroup02016-04-1811:49/tankdrwx-------hadoopsupergroup02016-04-1811:30/tmp-rw-r--r--3hadoopsupergroup662016-04-1811:29/user.txthadoopfs-ls

归档 hdfs-master hadoop section code hdfs

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版，我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时，它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d

yarn-cluster cluster java apache org hadoop apache-spark hive hadoop-yarn hortonworks-data-platform

hadoop - Log4j 不写入 HDFS/Log4j.properties

基于以下配置，我希望我的log4j应该写入HDFS文件夹(/myfolder/mysubfolder)。但它甚至没有创建具有给定名称hadoop9.log的文件。我尝试在hdfs上手动创建hadoop9.log。还是不行。我是否遗漏了log4j.properties中的任何内容？#Definesomedefaultvaluesthatcanbeoverriddenbysystempropertieshadoop.root.logger=INFO,console,RFA,DRFAhadoop.log.dir=/myfolder/mysubfolderhadoop.log.file=had

Log4j Log4 log hadoop mapreduce hive hdfs

hadoop - Hive 不在 HDFS 中存储仓库

我已经在我的本地系统上下载了hive安装并将hive-site.xml复制到Sparkconf目录中。我尝试使用sparkshell在Hive上下文中创建一个托管表。我在hive-site.xml中放置了以下属性(存在于spark的conf目录中):hive.metastore.warehouse.dir/user/hive/warehouse此外，我已将HADOOP_HOME放入spark-env.sh中:exportHADOOP_CONF_DIR=/opt/hadoop/conf根据Hive文档，Hive仓库应该存储在HDFS中，但仓库存储在本地驱动器(/user/hive/war

hadoop Hive section code warehouse hdfs

hadoop - 在 HDFS 中写入文件的剖析

以下是“HDFS文件写入剖析”中Hadoop权威指南中的句子。不太清楚，有人可以提供更多详细信息吗？如果在向其写入数据时任何数据节点发生故障，则会采取以下操作，这些操作对写入数据的客户端是透明的。首先，关闭管道，将ack队列中的任何数据包添加到数据队列的前面，以便故障节点下游的数据节点不会丢失任何数据包。Q.)“故障节点下游的数据节点不会丢失任何数据包”是什么意思？任何人都可以解释更多细节。当客户端完成写入数据时，它会在流上调用close()。此操作将所有剩余的数据包刷新到数据节点管道并等待确认，然后联系名称节点以发出文件已完成的信号。Q.)“actionflushalltherema

剖析 hadoop section strong 数据 hdfs

java - 分几步写入 HDFS 文件的效率如何？

我知道HDFSblock大小为64MB。但是假设我创建了一个新的HDFS文件，并继续向其中写入数据，但一次只写入了4KB的数据。那会不会效率很低？到最后我的文件可能有1GB大小，但是一点一点地写入数据是否会使写入这样的文件效率低下？我的意思是，在写入文件之前缓冲我的数据是否重要。例如，在这种情况下，我可以不断地将数据累积到一个缓冲区中，直到它达到64MB的大小，然后将其写入HDFS文件，并在清除该缓冲区后重复该过程。最佳答案首先，HDFSblock大小由您决定，默认值是可配置的，您可以在将文件放入HDFS时为给定文件设置不同的b

java HDFS section stackoverflow scala hadoop apache-spark

java - 在 Hadoop 2 中从 Java 远程读取 HDFS 文件时出现 BlockMissingException

我使用的是Hadoop2.6，我有一个安装了HDFS的虚拟机集群。我正在尝试通过在我的本地运行的一些Java代码远程读取我的HDFS中的文件，以基本方式，使用BufferedReaderFileSystemfs=null;StringhadoopLocalPath="/path/to/my/hadoop/local/folder/etc/hadoop";ConfigurationhConf=newConfiguration();hConf.addResource(newPath(hadoopLocalPath+File.separator+"core-site.xml"));hConf

时出 BlockMissingException java BufferedReader DFSInputStream hadoop

hadoop - Spark 作业失败，因为 HDFS 正在缓存 jar

我将Scala/Sparkjar上传到HDFS以在我们的集群上测试它们。运行后，我经常意识到需要做出一些改变。所以我在本地进行更改，然后将新的jar推送回HDFS。然而，当我这样做时，hadoop经常(并非总是)抛出一个错误，本质上是说这个jar与旧jar不同(duh)。我尝试清除我的回收站、.staging和.sparkstaging目录，但这没有任何作用。我尝试重命名jar，这有时会起作用，有时却不起作用(这仍然很荒谬，我必须首先这样做)。有谁知道为什么会发生这种情况以及如何防止这种情况发生？谢谢你的帮助。如果有帮助，这里有一些日志(编辑了一些路径):Applicationappl

hadoop Spark java FSDownload apache-spark hdfs

37 38 394041 42 43