Week_OF_Month

Hadoop 基础 :Number of map tasks mappers reduce tasks reducers

映射器和映射任务有什么区别？同样，reducer和reduce任务？此外，在执行mapreduce任务期间如何确定映射器、maptasks、reducer、reducetasks的数量？如果有的话，给出它们之间的相互关系。最佳答案简单来说maptask就是Mapper的一个实例。Mapper和reducer是mapreduce作业中的方法。当我们运行mapreduce作业时，生成的map任务数取决于输入中的block数(block数取决于输入拆分)。然而，reduce任务的数量可以在mapreduce驱动程序代码中指定。可以通过

tasks reducers section 射器 mapreduce hadoop internals mapper

hadoop - 谷歌云引擎 : LibSnappy not installed errur during command-line installation of Hadoop

我正在尝试使用commandlineoption在GoogleComputeEngine上安装自定义Hadoop实现(>2.0).我的bdutil_env.sh文件修改参数如下:GCE_IMAGE='ubuntu-14-04'GCE_MACHINE_TYPE='n1-standard-1'GCE_ZONE='us-central1-a'DEFAULT_FS='hdfs'HADOOP_TARBALL_URI='gs:///'./bdutil部署失败，退出代码为1。我在生成的debug.info文件中发现以下错误:ssh:connecttohost130.211.161.181port22

歌云 command-line hadoop bdutil ssh google-compute-engine google-hadoop

hadoop - pig : optimal number of maps with a 4 node cluster?

我正在使用只有4个节点的hadoopCloudera系统，但磁盘空间很大(200TB)。在我的pig脚本中，我每月加载几个文件，每个文件的大小约为200Gb。我注意到，如果我在我的pig脚本中加载大约一年的数据，Pig会创建大约15k个mappers，整个过程大约需要3个小时(包括reduce步骤)。相反，如果我加载三年的数据(大约5TB)，那么Pig会创建大约30k个mappers，基本上所有节点在处理超过15次后都会变得不健康小时。我是不是遇到了瓶颈？或者我应该使用一些默认选项？我的pig脚本非常基本:我分组，我数数。非常感谢! 最佳答案

cluster optimal strong section code hadoop apache-pig cloudera

fatal: not a git repository (or any of the parent directories): .git

场景：从git上clone一个项目到本地文件夹修改以后，在terminal提交gitadd.报错：fatal:notagitrepository(oranyoftheparentdirectories):.git（没有git仓库）原因：1、terminal的文件夹没有选择项目文件夹，而是clone时的父文件夹，当前文件夹找不到.git目录。cd到当前项目文件夹后，重新执行gitadd.就可以解决。2、项目文件夹没有初始化仓库，在项目文件夹下执行gitinit就可以解决问题。

directories repository 文件夹文件 code git github

hadoop - pig : Count number of keys in a map

我想计算Pigmap中键的数量。我可以编写UDF来执行此操作，但我希望有更简单的方法。data=LOAD'hbase://MARS1'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('A:*','-loadKeytrue-caching=100000')AS(id:bytearray,A_map:map[]);在上面的代码中，我想基本上构建id的直方图以及该键在列族A中有多少项。怀着希望，我尝试了c=FOREACHdataGENERATEid,COUNT(A_map);但不出所料，这没有奏效。或者，也许有人可以建议一个更好的方

hadoop number section code map hbase apache-pig

Stage-1 : number of reducers always shows 1. 的 Hadoop 作业信息我无法更改它。我该如何改变它？

我在hadoop集群上使用Hive。每当我尝试运行配置单元查询时，它总是显示为HadoopjobinformationforStage-1:numberofreducers:1我使用了以下Hive配置:hive.exec.reducers.bytes.per.reducer=1000000000hive.exec.reducers.max=999请告诉我如何增加reducer的数量。谢谢。最佳答案确保您已完成以下几点:您的mapred.reduce.tasks默认为-1。通过将此属性设置为-1，Hive将自动计算出reducer

reducers Hadoop section reducer hive

hadoop - Flink 在 YARN : Amazon S3 wrongly used instead of HDFS 上

我关注了FlinkonYARN'ssetupdocumentation.但是，当我使用./bin/yarn-session.sh-n2-jm1024-tm2048运行时，在向Kerberos进行身份验证时，出现以下错误:2016-06-1617:46:47,760WARNorg.apache.hadoop.util.NativeCodeLoader-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable2016-06-1617:46:48,518INFOorg.a

wrongly instead java apache FileSystem hadoop amazon-s3 hadoop-yarn apache-flink flink-cep

hadoop - 遍历 reducer 中的 IntWritable 数组给出 "Can only iterate over an array or an instance of java.lang.Iterable"

我已经编写了一个Driver、Mapper和Reducer程序来尝试复合键(输入数据集中的多个字段)。数据集如下所示:国家、州、县、人口(百万)美国，加利福尼亚州，阿拉米达，12美国，加利福尼亚州，圣克拉拉，14美国，亚利桑那州，阿巴吉德，14我正在尝试找出国家/地区的总人口。因此，reducer应该聚合两个字段Country+State并显示人口。当我在步骤(在reducer代码中)遍历population时for(IntWritablei:values)我收到编译器错误“Canonlyiterateoveranarrayoraninstanceofjava.lang.Iterabl

IntWritable amp import apache hadoop mapreduce

hadoop - Spark :What is the ideal number of reducers

我的数据大约是300G。如果我使用Hadoop对其执行reduce作业，180个reduce插槽就可以了，队列中没有任务等待。如果我使用具有相同数量的reduce槽的Spark执行此操作，它会在洗牌阶段卡住，而如果我使用更多的槽(比如4000)就不会发生这种情况，但这将以低效率结束。有什么我可以做的，比如调整参数，以便我可以使用与hadoop相同的插槽？顺便说一句，我的集群有15个节点，每个节点有12个核心最佳答案 ShuffleOperationinHadoopandSpark是关于该主题的好读物。一些引述:Eachmaptas

reducers hadoop Spark shuffle apache-spark

java - Hadoop MapReduce - Euler 的 Totient/Sum of Totient(和其他数学运算)

作为我研究的一部分，我正在使用不同的并行计算语言实现Totient求和(Euler的Totient)，老实说，我在MapReduce方面相当吃力。主要目标是对运行时、效率等进行基准测试......我的代码现在正在运行，我得到了正确的输出，但速度很慢，我想知道为什么。是因为我的实现还是因为HadoopMadReduce不是为此目的而设计的。我还实现了一个组合器，因为根据我的阅读，它应该优化代码，但事实并非如此。抱歉，如果这个问题看起来很愚蠢，但我在互联网上没有找到任何东西，而且我已经厌倦了尝试一切都没有任何结果。我的输入文件是1到15000之间的值123456...14998149991

Totient MapReduce bytes IntWritable java hadoop cluster-computing

170 171 172173174 175 176