data_reduced_草庐IT

hadoop - Hadoop 上理想的 reducer 数量是多少？

Hadoopwiki给出的计算reducer的理想数量是0.95或1.75*(nodes*mapred.tasktracker.tasks.maximum)但是什么时候选择0.95，什么时候选择1.75？决定这个乘数时考虑的因素是什么？最佳答案假设您的集群中有100个可用的reduce插槽。负载因子为0.95时，所有95个reduce任务将同时启动，因为有足够的reduce槽可用于所有任务。这意味着没有任务会在队列中等待，直到其余任务之一完成。当reduce任务“小”时，我会推荐此选项，即完成相对较快，或者它们都需要相同的时间，

hadoop - 组合器在哪里组合映射器输出 - 在 Map 阶段或 Map-reduce 作业中的 reduce 阶段？

我的印象是，组合器就像作用于本地map任务的reducer，即它聚合单个Map任务的结果，以减少输出传输的网络带宽。通过阅读Hadoop-Thedefinitiveguide3rdedition，我的理解似乎是正确的。来自第2章(第34页)组合器函数许多MapReduce作业受到集群上可用带宽的限制，因此尽量减少map和reduce任务之间传输的数据是值得的。Hadoop允许用户指定要在map输出上运行的组合器函数——组合器函数的输出构成reduce函数的输入。由于combiner函数是一种优化，Hadoop不保证为特定映射输出记录调用它的次数(如果有的话)。换句话说，零次、一次或多次

射器 reduce mapred JobClient code hadoop mapreduce hadoop2

hadoop - 在 Hive 中， "Load data local inpath"是覆盖现有数据还是追加？

我希望在cron上运行到Hive的导入，并且希望只使用“将数据本地输入路径‘/tmp/data/x’加载到表X”到表中就足够了。后续命令会覆盖表中已有的内容吗？还是会追加？最佳答案本站http://wiki.apache.org/hadoop/Hive/LanguageManual在处理Hive时是你的friend。:)解决将数据加载到Hive的页面是http://wiki.apache.org/hadoop/Hive/LanguageManual/DML该页面指出iftheOVERWRITEkeywordisusedthent

amp hadoop section Hive the hbase hdfs

java - 如何使用 Cloudera CDH4 和 Maven 获取正在运行的 Spring-Data-Hadoop 项目

由于Spring-Data-Hadoop尚未发布，因此很难找到与cloudera一起使用的运行示例配置。我需要选择哪些依赖项才能与CDH4(Hadoop2.0.0-cdh4.1.3)一起运行Spring-Data-Hadoop？通过选择不同的应用程序，我得到了这个异常(exception):空指针Exceptioninthread"SimpleAsyncTaskExecutor-1"java.lang.ExceptionInInitializerErroratorg.springframework.data.hadoop.mapreduce.JobExecutor$2.run(JobE

Spring-Data-Hadoop Cloudera gt lt hadoop java spring-data

hadoop - 使用 Pig/Hive 进行数据处理而不是直接使用 java map reduce 代码？

(比DifferencebetweenPigandHive?Whyhaveboth?更基础)我有一个数据处理管道，用Hadoop上的多个Javamap-reduce任务编写(我自己的自定义代码，源自Hadoop的Mapper和Reducer)。它是一系列基本操作，例如连接、反转、排序和分组依据。我的代码涉及并且不是很通用。继续这种公认的开发密集型方法与使用多个UDF将所有内容迁移到Pig/Hive的优缺点是什么？哪些工作我不能执行？我会遭受性能下降(使用100sTB)吗？维护时我会失去调整和调试代码的能力吗？我能否将部分作业作为Javamap-reduce进行流水线处理，并将它们的输入

hadoop reduce section stackoverflow mapreduce hive apache-pig

join - 运行 HIVE Join 查询时，Reducers 在 66.68% 时停止工作

尝试连接6个表，每个表中大约有500万行。尝试加入在所有表上按升序排序的帐号。Map任务成功完成，reducer在66.68%时停止工作。尝试了增加reducer数量等选项，还尝试了其他选项sethive.auto.convert.join=true;并设置hive.hashtable.max.memory.usage=0.9；并设置hive.smalltable.filesize=25000000L；但结果是一样的。尝试使用少量记录(如5000行)，查询效果非常好。请建议可以在这里做什么以使其发挥作用。最佳答案 66%的Redu

Reducers 66.68%section reducer 1000 join hadoop mapreduce hive

scala - Apache Spark 抛出 java.lang.IllegalStateException : unread block data

我们正在做的是:根据网站上的文档安装Spark0.9.1，以及hadoop/hdfs的CDH4(和另一个带有CDH5的集群)发行版。使用sbt构建带有Spark应用程序的fatjar，然后尝试在集群上运行它我还在底部包含了代码片段和sbtdeps。当我用谷歌搜索这个时，似乎有两个有点含糊的回答:a)节点/用户代码上的spark版本不匹配b)需要向SparkConf添加更多的jar现在我知道(b)不是在其他集群上成功运行相同代码但只包含一个jar(它是一个胖jar)的问题。但我不知道如何检查(a)-似乎Spark没有任何版本检查或任何东西-如果它检查版本并抛出“不匹配的版本异常:你有用户

IllegalStateException Apache 34 DAGScheduler scala hadoop hdfs apache-spark

map - 解释什么是 Hadoop 和 Map/Reduce 的最简单方法是什么？

从高层次的角度解释NoSQL非常容易——它基本上是“键值”存储。当然有成千上万的次要和重要的东西，但一般来说它只是键值存储。解释Hadoop和Map/Reduce的最佳方式是什么？可能是一些“真实世界”的例子，即使是新手也可以很容易地进行比较？谢谢! 最佳答案我最近找到了thisgreatarticle描述MapReduce:I’vebeenplanningonwritingabouttheGoogle’sMapReducealgorithmforsometimebutIcouldn’tfindagoodpracticalexam

Hadoop Reduce section C++成千 map mapreduce

hadoop - Hbase 与 Cassandra : Which is better for a timeseries data storage?

我使用我的API日志提取如下信息:这段时间内我的API有多少用户？或者在这段时间里，什么类型的服务被调用最多？我提取的几乎所有信息都取决于时间戳。实际上，我使用MongoDB并将时间戳添加为索引(对于80GB，索引大小为12GB)。有人向我推荐迁移到cassandra或Hbase。我想知道哪个更适合我的用例:时间序列数据分析。需要良好的写入和读取性能。可以使用hadoop进行数据分析。感谢您分享您的观点或经验。最佳答案 Cassandra的优势:Cassandra通常表现出更好的性能(尽管两者都非常出色)。从操作的角度来看，Cas

timeseries Cassandra section hadoop hbase analytics bigdata

xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce

我正在使用HadoopMapReduce对维基百科数据转储(以bz2格式压缩)进行研究。由于这些转储太大(5T)，我无法将xml数据解压缩到HDFS中，只能使用hadoop提供的StreamXmlRecordReader。Hadoop确实支持解压缩bz2文件，但它会任意拆分页面并将其发送给映射器。因为这是xml，所以我们需要拆分为标签。有没有办法把hadoop自带的bz2解压和streamxmlrecordreader一起使用？最佳答案维基媒体基金会刚刚为HadoopStreaming接口(interface)发布了一个Inpu

compressed xml section 射器维基 streaming hadoop wikipedia bzip2