草庐IT

data_reduced

全部标签

java - Map Reduce 程序抛出异常 IOException "Type mismatch in key from map"

您好,请在下面找到我的代码,它抛出异常。packageHadoopMapReduce;importjava.io.IOException;importjava.util.Iterator;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.h

hadoop - PIG 脚本 : reducer preempted to make room for pending map attempts

我使用不同的参数运行同一个PIG脚本的多个实例。当集群负载很重时,MapReduce作业日志显示大量reducer被抢占,这需要时间:ReducerpreemptedtomakeroomforpendingmapattemptsContainerkilledbytheApplicationMaster.Containerkilledonrequest.Exitcodeis143Containerexitedwithanon-zeroexitcode143如何避免此类抢占问题以最小化脚本执行时间? 最佳答案 看看this关联。简而言之

hadoop - Windows 平台上是否有 Hortonwork Data 平台的管理器

大家好,我是Hortonworks数据平台的新手。我在WindowsServer2012R2上安装了HDP2.4。截至目前,我正在命令提示符下运行我的Pig作业,但我想知道Cloudera中是否有像HUE这样的编辑器和像clouderaManager这样的HortonsManager。我在Windows操作系统上工作,所以我认为Hortonworks的Ambari也不支持。请在这方面帮助我。 最佳答案 像clouderamanager一样,对于hortonworks,ambari-service是存在的,但它仅适用于基于ubuntu

hadoop - 如何将 Amazon Glacier/S3 与 hadoop map reduce/spark 结合使用?

我需要使用Hadoop/EMR处理存储在AmazonS3和AmazonGlacier中的数据,并将输出数据保存在RDBMS中,例如。垂直我完全是大数据的菜鸟。我只看过一些关于mapreduce和sparx的在线类(class)和ppts。并创建了一些虚拟mapreduce代码用于学习目的。到目前为止,我只有一些命令可以让我将数据从S3导入AmazonEMR中的HDFC,并在处理后将它们存储在HDFS文件中。所以这是我的问题:在执行mapreduce之前是否真的必须先将数据从S3同步到HDFC,或者是否有直接使用S3的方法。`如何让hadoop访问AmazonGlacier数据`最后是如

database - Sqoop 是否使用 Reducer?

如果在使用--query参数给出的选择查询中执行连接/聚合,Sqoop是否运行reducer?或者在Sqoop中是否存在同时运行映射器和缩减器的情况?Documentation指定每个映射任务都需要执行查询的副本,结果按Sqoop推断的边界条件进行分区。$sqoopimport\--query'SELECTa.*,b.*FROMaJOINbon(a.id==b.id)WHERE$CONDITIONS'\--split-bya.id--target-dir/user/foo/joinresults在上面的示例中,JOIN如何在首先使用$CONDITIONS对表进行分区的地方发生?

java - Cloudera 中的 WordCount 作业成功但 reducer 的输出与 mapper 的输出相同

这个程序是用Cloudera编写的。这是我创建的驱动程序类。importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;importorg.apache.hadoo

论文笔记:CellSense: Human Mobility Recovery via Cellular Network Data Enhancement

1 intro1.1背景1.1.1 蜂窝计费记录(CBR)人类移动性在蜂窝网络上的研究近些年得到了显著关注,这主要是因为手机的高渗透率和收集手机数据的边际成本低蜂窝服务提供商收集蜂窝计费记录(CBR)用于计费目的,例如电话、短信和互联网访问这些记录可以被重新利用来感知用户的位置与仅涉及用户电话和短信通话记录的通话详单记录(CDR)相比,CBR是一个更通用的数据集依靠网络运营商收集的各种CBR数据集,研究人员广泛研究了人类移动性感知集体移动性,如流量和旅行时间个人移动性,如通勤模式和用户空间画像这些都是基于统计方法的,例如隐马尔可夫模型或条件随机场文章地址天数大小HumanMobilityMod

hadoop - Iterable 在 mapreduce Reduce Task 中不起作用

大家好,我是hadoop的新手,我正在努力解决与reducer相关的问题。我有一个简单的wordcount程序,它没有返回预期的输出预期输出:这1哈多普2输出:这1hadoop1hadoop1wordcount程序代码packagein.edureka.mapreduce;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;impor

Hadoop MapReduce : Two values as key in Mapper-Reducer

如何使用两个组件构建key?这样做的原因是我有一个无向图。如果A和B通过通信关联(方向无关),则两个节点A和B之间存在边。此通信有一个数字参数。所以我想实现的是有一个将A和B组合在一起作为一个集合的key,这样A到B和B到A的通信就可以被认为是等价的,并且可以被加起来得到统计数据说:AB5BA10键在语义上应该是“A或B在一起”,这样包含A和B作为键的集合的值应该是5+10=15。wordcount示例将特定单词作为关键字。就我而言,我想将包含两个组件的集合作为关键。在map和reduce阶段,只要满足AtoB或BtoA就求和。谢谢! 最佳答案

serialization - oozie 上的 Avro Map-Reduce

我一直在尝试在oozie上运行Avromap-reduce。我在workflow.xml中指定映射器和缩减器类,并提供其他配置。但它给出了一个java.lang.RunTimeException-classmr.sales.avro.etl.SalesMappernotorg.apache.hadoop.mapred.Mapper当直接在hadoop集群上(而不是通过oozie)运行时,相同的作业会完成并提供所需的输出。所以我似乎可能缺少一些oozie配置。我从异常中猜想oozie要求映射器是org.apache.hadoop.mapred.Mapper的子类,但Avro映射器具有不同