hdfs_clusters

csv - Hive 查询 o/p 到 HDFS 作为 CSV 文件

我想以CSV格式(逗号分隔)将配置单元查询输出写入HDFS文件。对于本地目录:INSERTOVERWRITELOCALDIRECTORY'/home/test/result/'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','SELECT*fromtable;以上工作正常并将查询输出作为CSV格式写入本地目录。对于HDFS:INSERTOVERWRITEDIRECTORY'/home/test/result/'SELECT*fromtable;写入HDFS的输出被序列化为文本，列由^A分隔，行由换行符分隔。注意:ROWFORMATDELIMITEDFIELD

hadoop - HDFS Block相关问题

我有2个问题可以帮助我理解HDFS如何在block的上下文中工作。1。您使用hadoopfs-put命令写入一个300MB的文件，HDFSblock大小为64MB。在此命令完成写入此文件的200MB后，其他用户会看到什么尝试访问此文件时？一个。当他们尝试访问此文件时，他们会看到Hadoop抛出ConcurrentFileAccessException。B.他们会看到文件的当前状态，直到命令写入的最后一位。C.他们会通过最后一个完成的block看到文件的当前状态。D.在整个文件写入并关闭之前，他们看不到任何内容。如我所见，因为文件被分成block，当每个block放入HDFS时它变得可用

hadoop Block HDFS section

java - Hadoop 配置对象未指向 hdfs 文件系统

我正在尝试用Java创建小型Spark程序。我正在创建一个Hadoop配置对象，如下所示:Configurationconf=newConfiguration(false);conf.addResource(newPath("/dir/core-site.xml"));conf.addResource(newPath("/dir/hdfs-site.xml"));conf.addResource(newPath("/dir/yarn-site.xml"));当我调用以下命令时，我得到了文件系统，但它指向本地文件系统而不是hdfs文件系统FileSystemfs=FileSystem.g

Hadoop java code section FileSystem hdfs

hadoop - 从分布式缓存或 HDFS 输出中读取

我正在实现一种迭代算法，该算法在每次迭代中产生一些结果，并且该结果用于下一次迭代的映射阶段。我应该使用分布式缓存让Mapper可以使用该结果，还是应该从HDFS读取它？什么更有效？那个文件应该不会那么大。这个想法只是在设置阶段读取它并将其保存在映射器的内存中。谢谢最佳答案如果文件不是那么大并且将在映射器的设置中读取，DistributedCache是前进的方向。当然，如果您没有阅读第二份工作的任何其他内容，那么就会回避您为什么要使用MapReduce工作的问题。从HDFS读取(即通过InputFormat将文件流式传输到映射器)

hadoop HDFS 射器 section DistributedCache mapreduce distributed-caching

hadoop - Spark 1.2 无法连接到 HDP 2.2 上的 HDFS

我关注这个游览http://hortonworks.com/hadoop-tutorial/using-apache-spark-hdp/在HDP2.2上安装Spark。但是它告诉我dfs拒绝了我的连接!我的命令:./bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors3--driver-memory512m--executor-memory512m--executor-cores1lib/spark-examples*.jar10这是日志:tput:Nov

hadoop Spark DFSOutputStream apache apache-spark hadoop2 hortonworks-data-platform ambari

hadoop - Hive、HDFS 数据到本地系统并返回

我是Hadoop管理的新手:)我有一个包含8个节点的ApacheHadoop2.4.1集群，使用了16TBDFS(无法在任何xml文件中找到复制因子)，带有MySQL元存储的Hive0.13。目标:将集群上的数据备份到NFS驱动器，卸载集群，安装一些其他发行版(Cloudera，Hortonworks)并将数据从NFS驱动器重新加载到这个新集群。有两个956GB(大约90亿行)和32Gb(几百万行)的Hive表以及一些其他较小的表。疑虑/疑问:如何在NFS驱动器上备份整个集群？目前我有一台安装了NFS驱动器的独立机器(不是集群的一部分)最粗暴的方法是将表导出到csv/tsv文件到NFS

hadoop Hive 新集 section li hdfs hadoop2

performance - 如何知道 MR2 中的 HDFS 并发吞吐量

我是Hadoop新手。最近我正在尝试使用TestDFSIO来评估我的hdfs性能，我有一个关于并发吞吐量的问题:在MR1并发吞吐量=报告的吞吐量x映射槽数例如ThroughputMB/sec:141.4427MapSlots=2ConcurrentThroughput=282.8854MB/sec.但是在MR2中(YARN中不再存在map和reduceslot)，如何计算并发吞吐量？最佳答案这是一篇很好的简单文章，它解释了这些“并发”词背后的大部分数学知识:BenchmarkingandStressTestinganHadoop

吞吐 performance section 射器 hadoop hdfs throughput

java - 找不到 hdfs fsck/命令的可信证书

我已经在Windows中配置了使用kerberos保护的hadoop-2.6.0。一切正常。但是当我执行下面的命令时hdfsfsck/我遇到以下异常。异常>Connectingtonamenodeviahttps://hostname:50470Exceptioninthread"main"javax.net.ssl.SSLHandshakeException:sun.security.validator.ValidatorException:Notrustedcertificatefoundatsun.security.ssl.Alerts.getSSLException(Alert

可信 java security sun hadoop ssl kerberos

具有 HDFS 文件读/写的 Java

我是Hadoop和Java的新手。我必须在我的远程云时代发行版中读取和写入存储在HDFS上的*.txt文件。同样，我编写了这个小型Java程序:importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.URI;importjava.net.URISyntaxException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStr

HDFS Java apache hadoop intellij-idea

hadoop - HDFS 小文件

我有一个包含许多小文件(KB)和一些中等文件(1mb到5mb)和一些大文件(大于50MB)的源现在可以选择将它们放入HDFS(合并文件)或HBase(作为MOB)。就摄取和向最终用户显示文件的性能而言，推荐使用哪种方法？最佳答案您可以将这些文件放入HDFS。但是在放入HDFS之前，您可以通过使用identitymapper和identityreducer运行MR作业来合并文件，方法是根据您的文件大小和block大小设置reducer的数量，或者使用combinefileinputformat处理它并将其放入HDFS。

hadoop HDFS section 放入 hbase

146 147 148149150 151 152