草庐IT

hdfs_clusters

全部标签

java - 从 HIVE UDF 读取 HDFS 文件 - 执行错误,返回代码 101 FunctionTask。无法初始化类

我们一直在尝试创建一个简单的HiveUDF来屏蔽Hive表中的某些字段。我们正在使用一个外部文件(放在HDFS上)来抓取一段文本,以便对屏蔽过程进行加盐处理。看起来我们一切正常,但是当我们尝试创建外部函数时它抛出错误:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode-101fromorg.apache.hadoop.hive.ql.exec.FunctionTask.Couldnotinitializeclassco.co

hadoop - 如何将大文件从HDFS上传到S3

我在将大文件(大于5GB)从HDFS上传到S3时遇到问题。有没有一种方法可以直接将文件从HDFS上传到S3而无需将其下载到本地文件系统并使用multipart? 最佳答案 要在HDFS和S3之间复制数据,您应该使用s3DistCp。s3DistCp针对AWS进行了优化,可以跨S3存储桶并行高效地复制大量文件。关于s3DistCp的使用,可以引用这里的文档:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/UsingEMR_s3distcp.htmls3

hadoop - Spark : Saving RDD in an already existing path in HDFS

我可以使用saveAsTextFile方法将RDD输出保存到HDFS。如果文件路径已经存在,此方法将抛出异常。我有一个用例,我需要将RDDS保存在HDFS中已有的文件路径中。有没有一种方法可以将新的RDD数据附加到同一路径中已经存在的数据中? 最佳答案 自Spark1.6以来可用的一种可能的解决方案是使用具有text格式和append模式的DataFrames:valoutputPath:String=???rdd.map(_.toString).toDF.write.mode("append").text(outputPath)

java - 在 hadoop HDFS 中存储大文件?

我需要在HDFS上存储一个大约10TB的大文件。我需要了解的是HDFS将如何存储该文件。比如说,集群的复制因子是3,我有一个10节点集群,每个节点上有超过10TB的磁盘空间,即集群总容量超过100TB。现在HDFS是随机选择三个节点,把文件存储在这三个节点上。那么这就像听起来一样简单。请确认?或者HDFS是否拆分文件-比如说分成10个1TB的拆分,然后将每个拆分存储在随机选择的3个节点上。拆分也是可能的,如果是,它是否是启用它的配置方面。如果HDFS必须拆分二进制文件或文本文件——它是如何拆分的。简单地按字节。 最佳答案 是的,它会

hadoop - 文件复制到 DataNodes 时 Hadoop HDFS 中的数据流管道

我只是想更多地了解以下声明。当我试图理解howtheHDFSwriteshappenstoDatanodes.我得到了以下关于HDFS写入的解释。为什么hdfs客户端向数据节点发送4kb而不是向数据节点发送整个block64MB?有的可以详细解释一下吗?为了获得更好的性能,数据节点维护数据传输管道。数据节点1不需要等待一个完整的block到达就可以开始向流中的数据节点2传输。事实上,对于给定block,从客户端到数据节点1的数据传输发生在4KB的较小块中。当数据节点1从客户端接收到第一个4KBblock时,它将这个block存储在其本地存储库中,并立即开始将其传输到流中的数据节点2。同

amazon-ec2 - 使用 s3 作为 fs.default.name 或 HDFS?

我正在EC2上设置Hadoop集群,我想知道如何进行DFS。我所有的数据目前都在s3中,所有map/reduce应用程序都使用s3文件路径来访问数据。现在我一直在研究Amazon的EMR是如何设置的,它似乎为每个作业流设置了一个名称节点和数据节点。现在我想知道我是否真的需要那样做,或者我是否可以只使用s3(n)作为DFS?如果这样做,有什么缺点吗?谢谢! 最佳答案 为了使用S3而不是HDFS,core-site.xml中的fs.name.default需要指向您的存储桶:fs.default.names3n://your-bucke

Azure HDInsight : what is head node in a hadoop cluster?

我刚刚在HDInsight中设置了一个Hadoop集群并尝试开始使用Hadoop。我在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到这个盒子上。文档将此框称为头节点,并有一个额外的步骤,用于讨论将数据复制到hadoop集群。这让我很困惑。我有以下问题:当我将数据从桌面复制到我登录的盒子时,它实际上不是将数据复制到hadoop吗?第一个复制操作与第二个复制操作有何不同?什么是Hadoop中的头节点? 最佳答案 HDInsight集群中的头节点是运行构成Hadoop平台的一些服务的机器,包括名称节点和作业跟踪器。从广

scala - java.io.IOException : No FileSystem for scheme : hdfs 异常

我正在使用ClouderaQuickstartVMCDH5.3.0(就包裹包而言)和Spark1.2.0$SPARK_HOME=/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark并使用命令提交Spark应用./bin/spark-submit--class--masterspark://localhost.localdomain:7077--deploy-modeclient--executor-memory4G../apps/.jarSpark_App_Main_Class_Name.scalaimportorg.ap

hadoop - 寻找一种方法来连续处理写入 hdfs 的文件

我正在寻找可以:监控hdfs目录中的新文件并在它们出现时进行处理。它还应该处理作业/应用程序开始工作之前目录中的文件。它应该有检查点以在重新启动时从它离开的地方继续。我查看了apachespark:它可以读取新添加的文件并且可以处理重新启动以从它离开的地方继续。我找不到一种方法让它也处理同一作业范围内的旧文件(所以只有1和3)。我查看了apacheflink:它确实处理新旧文件。然而,一旦作业重新启动,它就会再次开始处理所有这些(1和2)。这是一个应该很常见的用例。我是否在spark/flink中遗漏了一些使之成为可能的东西?这里有其他工具可以使用吗? 最佳

hadoop - 带/不带 HDFS 的 Alluxio

我有一个使用HDFS作为底层存储分布式文件系统的集群,但我刚刚读到有关alluxio的文章,它既快速又灵活。所以,我的问题是:我应该将Alluxio与HDFS一起使用,还是Alluxio是HDFS的替代品?(我在他们的网站上看到存储文件系统的共享存储可以是网络文件系统(NFS)。所以,我认为不需要HDFS。如果我弄错了请指正)。在哪种模式下性能更好:HDFSwithAlluxioorAlluxiostanalone(我的意思是术语standalone是在集群中单独使用而不是在本地使用)。 最佳答案 来自Alluxio维护者的回复。首