hdfs-agent

java - 将文件上传到 HDFS 或直接创建和写入 HDFS 文件哪个更快？

基本上我有一个程序，可以将文件上传到HDFS。这些文件在任务执行结束时上传。因此，发生的情况是许多任务同时(在执行结束时)将文件上传到HDFS，从而造成争用。文件大小小于一个HDFSblock(所以，基本上我的问题是，创建HDFS文件或将字符串附加到已创建的HDFS文件哪个开销更大？最佳答案我自己对此进行了测试，并注意到创建HDFS文件所花费的时间几乎与追加文件所花费的时间相同。这是假设写入的内容小于HDFSblock大小。如果您上传一个HDFS文件，这相当于创建HDFS文件并附加到它，所以这意味着它花费的时间是附加到它的两倍。

建和 HDFS section 传到 java scala hadoop bigdata

hadoop - HDFS 将本地文件放入 hdfs 但出现 UnresolvedAddressException

我想将一个70G的文件放入hdfs，所以我使用“put”命令来完成此操作。但是，我得到以下异常。我用相同的命令尝试了小尺寸文件，它有效。有谁知道是什么问题？谢谢!WARN[DataStreamerforfile/user/qzhao/data/sorted/WGC033800D_sorted.bam._COPYING_]hdfs.DFSClient(DFSOutputStream.java:run(628))-DataStreamerExceptionjava.nio.channels.UnresolvedAddressExceptionatsun.nio.ch.Net.checkAd

UnresolvedAddressException 放入 hadoop apache java hdfs

hadoop - 导入到 HDFS 或 Hive(直接)

堆栈:使用Ambari2.1安装HDP-2.3.2.0-2950来源是大约1.6TB和大约25个表的MSSQL数据库最终目标是检查现有查询是否可以在HDP上运行得更快多次导入数据的时间和可用性并不奢侈，因此，导入必须完成一次，并且需要对Hive表、查询等进行试验，例如，首先创建一个正常的,ORC中的分区表。如果还不够，请尝试索引等。可能，我们还会评估Parquet格式等4.作为4.的解决方案，我决定首先将表以Avro格式导入HDFS，例如:sqoopimport--connect'jdbc:sqlserver://server;database=dbname'--usernamesom

hadoop HDFS section Hive stackoverflow sqoop

hadoop - Gobblin Kafka 到 HDFS pull 作业报错

我正在尝试使用Gobblin将数据从Kafka提取到HDFS.Gobblin版本(使用命令sudo./gradlewcleanbuild-PuseHadoop2-PhadoopVersion=2.7.1-xtest从github源代码编译):0.6.2-546-g431188bHadoop版本:Hadoop2.7.1.2.4.2.0-258Subversiongit@github.com:hortonworks/hadoop.git-r13debf893a605e8a88df18a7d8d214f571e05289Compiledbyjenkinson2016-04-24T16:02Z

Gobblin hadoop java apache-kafka hadoop-yarn

java.lang.NoClassDefFoundError : ./oozie-setup.sh sharelib 创建-fs hdfs://localhost:9000

我构建了Oozie并在hdfs中创建共享库，但它给出了以下错误。我按照所有步骤操作，但这是唯一出错的步骤。settingCATALINA_OPTS="$CATALINA_OPTS-Xmx1024m"Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/io/filefilter/IOFileFilteratjava.lang.Class.getDeclaredMethods0(NativeMethod)atjava.lang.Class.privateGetDeclaredMethods(Cla

NoClassDefFoundError oozie-setup java code URLClassLoader hadoop hdfs oozie

Java 读写 Spark Vector 到 Hdfs

我写了Vector的(org.apache.spark.mllib.linalg.Vector)到HDFS如下publicvoidwritePointsToFile(Pathpath,FileSystemfs,Configurationconf,Listpoints)throwsIOException{SequenceFile.Writerwriter=SequenceFile.createWriter(conf,Writer.file(path),Writer.keyClass(LongWritable.class),Writer.valueClass(Vector.class));

Vector Spark code LongWritable java hadoop apache-spark hdfs

Hadoop HDFS : How to set hostname:9000 instead of localhost:9000

如何设置HadoopHDFS应该监听的IP地址？目前，当我运行netstat时，我会在127.0.0.1:9000上看到它。这使得无法从集群中的另一个节点访问HDFS。运行应用程序时出现连接被拒绝错误。我希望它显示为my-machine-name:9000而不是127.0.0.1:9000。我的core-site.xml文件是fs.defaultFSmy-machine-name:9000/ 最佳答案在本地机器(客户端节点)上的/etc/host文件中添加/编辑此行127.0.0.1localhostmy-machine-name

9000 localhost code section my-machine-name hadoop mapreduce hdfs microsoft-distributed-file-system

shell - 使用 OOZIE 将文件从 HDFS 一个目录移动到 HDFS 中的另一个目录？

我正在尝试将文件从HDFS的一个目录复制到HDFS中的其他目录，借助shell脚本作为oozie作业的一部分，但我无法通过oozie复制它。我们可以使用oozie将文件从HDFS一个目录复制到HDFS中的另一个目录吗？wheniamrunningtheooziejob,iamnotanygettingerror.itisshowingstatusSUCCEEDEDbutfileisnotcopyingtodestinationdirectory.oozie文件如下。测试.sh#!/bin/bashecho"listingfilesinthecurrentdirectory,$PWD"s

HDFS shell oozie section hadoop cloudera oozie-coordinator

hadoop - 在 Cloudera 中扩展 HDFS 内存

我需要在cloudera中将我的hdfs内存从50GB扩展到200GB。我正在使用具有300GB可用空间的虚拟机，但hdfs仅配置为在hdfs上使用50GB。我的dfs.namenode.name.dir指向默认的dfs/nndfs.namenode.name.dirfile:///dfs/nn我的hdfsdfsadming-report给我:[root@localhostconf.cloudera.hdfs]hdfsdfsadmin-reportConfiguredCapacity:55531445863(51.72GB)PresentCapacity:6482358272(6.04

Cloudera hadoop code datanode dfs hdfs redhat

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'？

我有一个由9台计算机组成的集群，上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明，某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法，以便每个Spark执行程序测试存档“本地”(即，其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行，但有时Spark执行程序会处理HDFS中

amp Spark 34 scala hadoop apache-spark hdfs cluster-computing

156 157 158159160 161 162