mapReduce

hadoop - GCE Hadoop 工作节点上的 reducer 插槽数量是多少？

我正在GoogleComputeEngine的Hadoop集群上测试一些MapReduce作业的扩展，并发现了一些意想不到的结果。简而言之，有人告诉我这种行为可能是由于Hadoop集群中每个工作节点都有多个reducer槽。有人可以确认GCE的Hadoop集群上MapReduce作业的每个工作节点(工作虚拟机)的reducer槽数吗？我正在使用hadoop2_env.sh部署。https://groups.google.com/a/cloudera.org/forum/#!topic/oryx-user/AFIU2PE2g8o提供指向有关我正在经历的行为的背景讨论的链接，如果需要，可提

java - hadoop mapreduce IntWritable范围有多长？

Hadoopmapreduce是一个分析大数据的框架。所以，其中一个例子分析大数据是计数程序。所以我想问一下，hadoopIntWritable范围有多长(如果数据到十亿是否适合使用？)。而如果我们要计数，我们用JavaInt数据类型做add或count操作，那么JavaInt数据类型范围呢？分析大数据是否也合适？(如果数据到十亿)非常感谢...... 最佳答案 int数据类型是一个32位有符号二进制补码整数。它的最小值为-2,147,483,648，最大值为2,147,483,647(含)。IntWritable也具有相同的范围容

IntWritable 多长 section 大数 java hadoop mapreduce int range

hadoop - pig 本地模式溢出数据问题

我正在尝试解决这个问题，但无法理解。我的开发机器中的pig脚本在1.8GB的数据文件上成功运行。当我试图在服务器上运行它时，它指出它找不到本地设备来溢出数据spill0.out我修改了pig.property文件中的pig.temp.Dir属性以指向一个有空间的位置..错误:org.apache.hadoop.util.DiskChecker$DiskErrorException:无法为输出/spill0.out找到任何有效的本地目录那么如何找出pig溢出数据的位置，以及我们能否以某种方式更改pig溢出目录位置。我在本地模式下使用pig。任何想法或建议或解决方法都会有很大帮助。谢谢..

hadoop pig section stackoverflow mapreduce apache-pig bigdata

hadoop - 独立的 map reduce 作业一个接一个地执行

是否有可能执行独立的mapreduce作业(不在reducer输出的链接中成为映射器的输入。可以一个接一个地执行。最佳答案在你的驱动代码中调用两个方法runfirstjob,runsecondjob.就像这样。这只是一个提示，根据你的需要做修改publicclassExerciseDriver{staticConfigurationconf;publicstaticvoidmain(String[]args)throwsException{ExerciseDriverED=newExerciseDriver();conf=new

hadoop reduce job class String mapreduce bigdata

Hadoop 2.6.0 官方实例 : Yarn (MR2) much slower than Map Reduce (MR1) in single node setup

我开始玩hadoop2.6.0，根据officialdocumentation搭建了一个伪分布式单节点系统.当我运行简单的MapReduce(MR1)示例(参见“伪分布式操作->执行”)时，总执行时间约为7秒。更准确地说，bash的时间给出:real0m6.769suser0m7.375ssys0m0.400s当我通过Yarn(MR2)运行相同的示例时(参见“伪分布式操作->YARNonSingleNode”)，总执行时间约为100sec，因此非常慢。bash的时间给出:real1m38.422suser0m4.798ssys0m0.319s因此，(出于某种原因)在用户空间之外存在大量

Hadoop Reduce Number bytes operations mapreduce hadoop-yarn hadoop2

hadoop - 无法关闭文件，因为最后一个 block 没有足够数量的副本

从错误消息中可以明显看出，保存与文件相关的特定block的副本时出现问题。原因可能是访问数据节点以保存特定block(block的副本)时出现问题。完整日志请引用下方:我找到了另一个用户“huasanyelao”-https://stackoverflow.com/users/987275/huasanyelao也有类似的异常/问题，但用例不同。现在，我们如何解决这些问题？我了解在所有情况下都没有固定的解决方案。1.我需要立即采取什么措施来修复此类错误？2.如果有作业我当时没有监控日志。我需要采取什么方法来解决此类问题。P.S:除了修复网络或访问问题，我还应该遵循哪些其他方法。错误日志

hadoop block java apache mapreduce hdfs

java - 如何解决 MapReduce 中每个 'n' 的 TOP 'entity'？

我是Hadoop/MR领域的新手，正在尝试解决以下问题:一所大学试图根据其受欢迎程度找出过去20年开设的前20门学科。该程序应该通过计算每个校区的独特学生的访问次数来找出前20个主题。理想的输出应该是这样的:Campus1Mathes:3500Law:3200JavaProg:2830Anatomy:2701...Campus2DB:4200Chamistry:4190Business:3999Astronomy:3500...Campus3C/C++:2800Python:2799BigData:1900WebDev:1200.........有两个文件包含不同但相关的数据集:sub

amp 39 code section strong java hadoop mapreduce bigdata

hadoop - hadoop如何存储数据和使用MapReduce？

当我试图理解hadoop架构时，我想弄清楚一些问题。当有大数据输入时，HDFS会把它分成很多block(每个block64MB或128MB)然后复制很多次存储在内存块中，对吧？但是，我仍然不知道MapReduce在哪里工作。是用分合数据来存储的吗？或者用它来返回一些有用的输出？最佳答案在HDFS中存储数据与使用MapReduce范式分析数据是完全不同的事情。当上传到HDFS时，大数据文件被拆分成block存储在数据节点中，每个block被复制的次数与配置的复制因子(默认为3)一样多。数据拆分就像将文件除以配置的block大小一样

hadoop MapReduce section block 大数 hdfs bigdata

python - 使用 elastic-mapreduce 将文件加载到 EMR 分布式缓存时出错

我正在使用以下命令启动集群。./elastic-mapreduce--create\--stream\--caches3n://bucket_name/code/totalInstallUsers#totalInstallUsers\--inputs3n://bucket_name/input\--outputs3n://bucket_name/output\--mappers3n://bucket_name/code/mapper.py\--reducers3n://bucket_name\--jobflow-roleEMR_EC2_DefaultRole\--service-rol

时出 elastic-mapreduce code 34 data_processing python ruby hadoop mapreduce emr

java - 运行Hadoop MapReduce Java程序时出现UnsatisfiedLinkError

我正在尝试在Windows8.1上使用Hadoop运行这个MapReduce程序。经过大量努力，我已经非常接近工作了。我有Java1.8.0_45和Hadoop-2.7.0。我还有winutils.exe和hadoop.dll，它们给很多人带来了问题。代码如下:publicclassOSProject{publicstaticclassMapextendsMapReduceBaseimplementsMapper{@Overridepublicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter

时出 UnsatisfiedLinkError hadoop apache java mapreduce

50 51 525354 55 56