hdfs-agent

java - 使用Put命令写入HDFS，得到 "Exculding datanode"

当我使用“hadoopfs-putfile1.txt/home”时，出现了这些错误:2014-11-2512:42:27INFO[org.apache.hadoop.conf.Configuration.deprecation]fs.default.nameisdeprecated.Instead,usefs.defaultFS2014-11-2512:45:34INFO[org.apache.hadoop.hdfs.DFSClient]ExceptionincreateBlockOutputStreamjava.net.ConnectException:Connectiontimed

hadoop - 如何读取 HDFS 上的文件以在 Hadoop 上进行分布式缓存

我正在尝试从HDFS加载hadoop分布式缓存中的文件，但它不起作用。我正在使用hadoop版本2.5.1。这是关于我如何在映射器中使用缓存文件的代码:@Overrideprotectedvoidsetup(Contextcontext)throwsIOException,InterruptedException{URI[]uris=context.getCacheFiles();for(URIuri:uris){FileusersFile=newFile(uri);BufferedReaderreader=null;reader=newBufferedReader(newFileRe

上进 hadoop LocalJobRunner java code hdfs distributed-caching

hadoop - 如何使用配置单元读取自定义的 hdfs 文件

我在HDFS中有自己的文件格式，如下所示...正如我们所见，文件中的每条记录都使用ProtocolBuffer进行了编码我一直在尝试用hive读取这些文件，我想我应该创建一个输入格式，一个来自旧版本mapreduceAPI的记录读取器，以及一个用于解码protobuf记录的serde。以前有没有人这样做过，我的方向是否正确？任何帮助将不胜感激。最佳答案是的，您正朝着正确的方向前进。这正是InputFormat、RecordReader和SerDe抽象的用途。您应该能够找到大量示例。

自定配置单 section code 读取器 hadoop mapreduce hive hdfs protocol-buffers

csv - Hive 查询 o/p 到 HDFS 作为 CSV 文件

我想以CSV格式(逗号分隔)将配置单元查询输出写入HDFS文件。对于本地目录:INSERTOVERWRITELOCALDIRECTORY'/home/test/result/'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','SELECT*fromtable;以上工作正常并将查询输出作为CSV格式写入本地目录。对于HDFS:INSERTOVERWRITEDIRECTORY'/home/test/result/'SELECT*fromtable;写入HDFS的输出被序列化为文本，列由^A分隔，行由换行符分隔。注意:ROWFORMATDELIMITEDFIELD

Hive HDFS section strong result csv hadoop

hadoop - HDFS Block相关问题

我有2个问题可以帮助我理解HDFS如何在block的上下文中工作。1。您使用hadoopfs-put命令写入一个300MB的文件，HDFSblock大小为64MB。在此命令完成写入此文件的200MB后，其他用户会看到什么尝试访问此文件时？一个。当他们尝试访问此文件时，他们会看到Hadoop抛出ConcurrentFileAccessException。B.他们会看到文件的当前状态，直到命令写入的最后一位。C.他们会通过最后一个完成的block看到文件的当前状态。D.在整个文件写入并关闭之前，他们看不到任何内容。如我所见，因为文件被分成block，当每个block放入HDFS时它变得可用

hadoop Block HDFS section

java - Hadoop 配置对象未指向 hdfs 文件系统

我正在尝试用Java创建小型Spark程序。我正在创建一个Hadoop配置对象，如下所示:Configurationconf=newConfiguration(false);conf.addResource(newPath("/dir/core-site.xml"));conf.addResource(newPath("/dir/hdfs-site.xml"));conf.addResource(newPath("/dir/yarn-site.xml"));当我调用以下命令时，我得到了文件系统，但它指向本地文件系统而不是hdfs文件系统FileSystemfs=FileSystem.g

Hadoop java code section FileSystem hdfs

hadoop - 从分布式缓存或 HDFS 输出中读取

我正在实现一种迭代算法，该算法在每次迭代中产生一些结果，并且该结果用于下一次迭代的映射阶段。我应该使用分布式缓存让Mapper可以使用该结果，还是应该从HDFS读取它？什么更有效？那个文件应该不会那么大。这个想法只是在设置阶段读取它并将其保存在映射器的内存中。谢谢最佳答案如果文件不是那么大并且将在映射器的设置中读取，DistributedCache是前进的方向。当然，如果您没有阅读第二份工作的任何其他内容，那么就会回避您为什么要使用MapReduce工作的问题。从HDFS读取(即通过InputFormat将文件流式传输到映射器)

hadoop HDFS 射器 section DistributedCache mapreduce distributed-caching

hadoop - Spark 1.2 无法连接到 HDP 2.2 上的 HDFS

我关注这个游览http://hortonworks.com/hadoop-tutorial/using-apache-spark-hdp/在HDP2.2上安装Spark。但是它告诉我dfs拒绝了我的连接!我的命令:./bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors3--driver-memory512m--executor-memory512m--executor-cores1lib/spark-examples*.jar10这是日志:tput:Nov

hadoop Spark DFSOutputStream apache apache-spark hadoop2 hortonworks-data-platform ambari

hadoop - Hive、HDFS 数据到本地系统并返回

我是Hadoop管理的新手:)我有一个包含8个节点的ApacheHadoop2.4.1集群，使用了16TBDFS(无法在任何xml文件中找到复制因子)，带有MySQL元存储的Hive0.13。目标:将集群上的数据备份到NFS驱动器，卸载集群，安装一些其他发行版(Cloudera，Hortonworks)并将数据从NFS驱动器重新加载到这个新集群。有两个956GB(大约90亿行)和32Gb(几百万行)的Hive表以及一些其他较小的表。疑虑/疑问:如何在NFS驱动器上备份整个集群？目前我有一台安装了NFS驱动器的独立机器(不是集群的一部分)最粗暴的方法是将表导出到csv/tsv文件到NFS

hadoop Hive 新集 section li hdfs hadoop2

performance - 如何知道 MR2 中的 HDFS 并发吞吐量

我是Hadoop新手。最近我正在尝试使用TestDFSIO来评估我的hdfs性能，我有一个关于并发吞吐量的问题:在MR1并发吞吐量=报告的吞吐量x映射槽数例如ThroughputMB/sec:141.4427MapSlots=2ConcurrentThroughput=282.8854MB/sec.但是在MR2中(YARN中不再存在map和reduceslot)，如何计算并发吞吐量？最佳答案这是一篇很好的简单文章，它解释了这些“并发”词背后的大部分数学知识:BenchmarkingandStressTestinganHadoop

吞吐 performance section 射器 hadoop hdfs throughput

153 154 155156157 158 159