草庐IT

hdfs-agent

全部标签

java - 使用Put命令写入HDFS,得到 "Exculding datanode"

当我使用“hadoopfs-putfile1.txt/home”时,出现了这些错误:2014-11-2512:42:27INFO[org.apache.hadoop.conf.Configuration.deprecation]fs.default.nameisdeprecated.Instead,usefs.defaultFS2014-11-2512:45:34INFO[org.apache.hadoop.hdfs.DFSClient]ExceptionincreateBlockOutputStreamjava.net.ConnectException:Connectiontimed

hadoop - 如何读取 HDFS 上的文件以在 Hadoop 上进行分布式缓存

我正在尝试从HDFS加载hadoop分布式缓存中的文件,但它不起作用。我正在使用hadoop版本2.5.1。这是关于我如何在映射器中使用缓存文件的代码:@Overrideprotectedvoidsetup(Contextcontext)throwsIOException,InterruptedException{URI[]uris=context.getCacheFiles();for(URIuri:uris){FileusersFile=newFile(uri);BufferedReaderreader=null;reader=newBufferedReader(newFileRe

hadoop - 如何使用配置单元读取自定义的 hdfs 文件

我在HDFS中有自己的文件格式,如下所示...正如我们所见,文件中的每条记录都使用ProtocolBuffer进行了编码我一直在尝试用hive读取这些文件,我想我应该创建一个输入格式,一个来自旧版本mapreduceAPI的记录读取器,以及一个用于解码protobuf记录的serde。以前有没有人这样做过,我的方向是否正确?任何帮助将不胜感激。 最佳答案 是的,您正朝着正确的方向前进。这正是InputFormat、RecordReader和SerDe抽象的用途。您应该能够找到大量示例。

csv - Hive 查询 o/p 到 HDFS 作为 CSV 文件

我想以CSV格式(逗号分隔)将配置单元查询输出写入HDFS文件。对于本地目录:INSERTOVERWRITELOCALDIRECTORY'/home/test/result/'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','SELECT*fromtable;以上工作正常并将查询输出作为CSV格式写入本地目录。对于HDFS:INSERTOVERWRITEDIRECTORY'/home/test/result/'SELECT*fromtable;写入HDFS的输出被序列化为文本,列由^A分隔,行由换行符分隔。注意:ROWFORMATDELIMITEDFIELD

hadoop - HDFS Block相关问题

我有2个问题可以帮助我理解HDFS如何在block的上下文中工作。1。您使用hadoopfs-put命令写入一个300MB的文件,HDFSblock大小为64MB。在此命令完成写入此文件的200MB后,其他用户会看到什么尝试访问此文件时?一个。当他们尝试访问此文件时,他们会看到Hadoop抛出ConcurrentFileAccessException。B.他们会看到文件的当前状态,直到命令写入的最后一位。C.他们会通过最后一个完成的block看到文件的当前状态。D.在整个文件写入并关闭之前,他们看不到任何内容。如我所见,因为文件被分成block,当每个block放入HDFS时它变得可用

java - Hadoop 配置对象未指向 hdfs 文件系统

我正在尝试用Java创建小型Spark程序。我正在创建一个Hadoop配置对象,如下所示:Configurationconf=newConfiguration(false);conf.addResource(newPath("/dir/core-site.xml"));conf.addResource(newPath("/dir/hdfs-site.xml"));conf.addResource(newPath("/dir/yarn-site.xml"));当我调用以下命令时,我得到了文件系统,但它指向本地文件系统而不是hdfs文件系统FileSystemfs=FileSystem.g

hadoop - 从分布式缓存或 HDFS 输出中读取

我正在实现一种迭代算法,该算法在每次迭代中产生一些结果,并且该结果用于下一次迭代的映射阶段。我应该使用分布式缓存让Mapper可以使用该结果,还是应该从HDFS读取它?什么更有效?那个文件应该不会那么大。这个想法只是在设置阶段读取它并将其保存在映射器的内存中。谢谢 最佳答案 如果文件不是那么大并且将在映射器的设置中读取,DistributedCache是前进的方向。当然,如果您没有阅读第二份工作的任何其他内容,那么就会回避您为什么要使用MapReduce工作的问题。从HDFS读取(即通过InputFormat将文件流式传输到映射器)

hadoop - Spark 1.2 无法连接到 HDP 2.2 上的 HDFS

我关注这个游览http://hortonworks.com/hadoop-tutorial/using-apache-spark-hdp/在HDP2.2上安装Spark。但是它告诉我dfs拒绝了我的连接!我的命令:./bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors3--driver-memory512m--executor-memory512m--executor-cores1lib/spark-examples*.jar10这是日志:tput:Nov

hadoop - Hive、HDFS 数据到本地系统并返回

我是Hadoop管理的新手:)我有一个包含8个节点的ApacheHadoop2.4.1集群,使用了16TBDFS(无法在任何xml文件中找到复制因子),带有MySQL元存储的Hive0.13。目标:将集群上的数据备份到NFS驱动器,卸载集群,安装一些其他发行版(Cloudera,Hortonworks)并将数据从NFS驱动器重新加载到这个新集群。有两个956GB(大约90亿行)和32Gb(几百万行)的Hive表以及一些其他较小的表。疑虑/疑问:如何在NFS驱动器上备份整个集群?目前我有一台安装了NFS驱动器的独立机器(不是集群的一部分)最粗暴的方法是将表导出到csv/tsv文件到NFS

performance - 如何知道 MR2 中的 HDFS 并发吞吐量

我是Hadoop新手。最近我正在尝试使用TestDFSIO来评估我的hdfs性能,我有一个关于并发吞吐量的问题:在MR1并发吞吐量=报告的吞吐量x映射槽数例如ThroughputMB/sec:141.4427MapSlots=2ConcurrentThroughput=282.8854MB/sec.但是在MR2中(YARN中不再存在map和reduceslot),如何计算并发吞吐量? 最佳答案 这是一篇很好的简单文章,它解释了这些“并发”词背后的大部分数学知识:BenchmarkingandStressTestinganHadoop