hdfs_rtp

hadoop - 从分布式缓存或 HDFS 输出中读取

我正在实现一种迭代算法，该算法在每次迭代中产生一些结果，并且该结果用于下一次迭代的映射阶段。我应该使用分布式缓存让Mapper可以使用该结果，还是应该从HDFS读取它？什么更有效？那个文件应该不会那么大。这个想法只是在设置阶段读取它并将其保存在映射器的内存中。谢谢最佳答案如果文件不是那么大并且将在映射器的设置中读取，DistributedCache是前进的方向。当然，如果您没有阅读第二份工作的任何其他内容，那么就会回避您为什么要使用MapReduce工作的问题。从HDFS读取(即通过InputFormat将文件流式传输到映射器)

hadoop HDFS 射器 section DistributedCache mapreduce distributed-caching

hadoop - Spark 1.2 无法连接到 HDP 2.2 上的 HDFS

我关注这个游览http://hortonworks.com/hadoop-tutorial/using-apache-spark-hdp/在HDP2.2上安装Spark。但是它告诉我dfs拒绝了我的连接!我的命令:./bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors3--driver-memory512m--executor-memory512m--executor-cores1lib/spark-examples*.jar10这是日志:tput:Nov

hadoop Spark DFSOutputStream apache apache-spark hadoop2 hortonworks-data-platform ambari

hadoop - Hive、HDFS 数据到本地系统并返回

我是Hadoop管理的新手:)我有一个包含8个节点的ApacheHadoop2.4.1集群，使用了16TBDFS(无法在任何xml文件中找到复制因子)，带有MySQL元存储的Hive0.13。目标:将集群上的数据备份到NFS驱动器，卸载集群，安装一些其他发行版(Cloudera，Hortonworks)并将数据从NFS驱动器重新加载到这个新集群。有两个956GB(大约90亿行)和32Gb(几百万行)的Hive表以及一些其他较小的表。疑虑/疑问:如何在NFS驱动器上备份整个集群？目前我有一台安装了NFS驱动器的独立机器(不是集群的一部分)最粗暴的方法是将表导出到csv/tsv文件到NFS

hadoop Hive 新集 section li hdfs hadoop2

performance - 如何知道 MR2 中的 HDFS 并发吞吐量

我是Hadoop新手。最近我正在尝试使用TestDFSIO来评估我的hdfs性能，我有一个关于并发吞吐量的问题:在MR1并发吞吐量=报告的吞吐量x映射槽数例如ThroughputMB/sec:141.4427MapSlots=2ConcurrentThroughput=282.8854MB/sec.但是在MR2中(YARN中不再存在map和reduceslot)，如何计算并发吞吐量？最佳答案这是一篇很好的简单文章，它解释了这些“并发”词背后的大部分数学知识:BenchmarkingandStressTestinganHadoop

吞吐 performance section 射器 hadoop hdfs throughput

java - 找不到 hdfs fsck/命令的可信证书

我已经在Windows中配置了使用kerberos保护的hadoop-2.6.0。一切正常。但是当我执行下面的命令时hdfsfsck/我遇到以下异常。异常>Connectingtonamenodeviahttps://hostname:50470Exceptioninthread"main"javax.net.ssl.SSLHandshakeException:sun.security.validator.ValidatorException:Notrustedcertificatefoundatsun.security.ssl.Alerts.getSSLException(Alert

可信 java security sun hadoop ssl kerberos

具有 HDFS 文件读/写的 Java

我是Hadoop和Java的新手。我必须在我的远程云时代发行版中读取和写入存储在HDFS上的*.txt文件。同样，我编写了这个小型Java程序:importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.URI;importjava.net.URISyntaxException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStr

HDFS Java apache hadoop intellij-idea

hadoop - HDFS 小文件

我有一个包含许多小文件(KB)和一些中等文件(1mb到5mb)和一些大文件(大于50MB)的源现在可以选择将它们放入HDFS(合并文件)或HBase(作为MOB)。就摄取和向最终用户显示文件的性能而言，推荐使用哪种方法？最佳答案您可以将这些文件放入HDFS。但是在放入HDFS之前，您可以通过使用identitymapper和identityreducer运行MR作业来合并文件，方法是根据您的文件大小和block大小设置reducer的数量，或者使用combinefileinputformat处理它并将其放入HDFS。

hadoop HDFS section 放入 hbase

shell - 计算 HDFS 目录中单个文件的行数

我想获取HDFS目录中单个文件的行数(连同文件名)，输出应该与此类似:4filename_1.txt20filename_2.txt8filename_3.txt目前我正在使用hadoopfs-cat/用户/TMM/|wc-l这是给出目录的总数。(在这种情况下，例如:32)有什么办法吗？最佳答案您可以使用shell脚本执行此操作，请引用以下可能对您有帮助的代码段。foriin$(hadoopfs-ls|tr-s''|grep'/'|awk'{print$8}');doecho$i`hadoopfs-cat$i|wc-l`;don

shell HDFS section code hadoop bigdata

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交，但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/，但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么？请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

directory cluster code hdfs master hadoop apache-spark

hadoop - 从 pig 脚本运行时 PIG 不从 hdfs 读取文件

我正在尝试使用pigscript从hdfs加载文件data=LOAD'/user/Z013W7X/typeahead/time_decayed_clickdata.tsv'usingPigStorage('\t')as(keyword:chararray,search_count:double,clicks:double,cartadds:double);上述路径为hdfs路径。当我使用piggrunt运行相同的脚本时，它执行时没有任何问题，但是使用脚本的相同代码显示以下问题:Input(s):Failedtoreaddatafrom"/user/Z013W7X/typeahead/t

hadoop hdfs suggestions data search_count apache-pig

135 136 137138139 140 141