草庐IT

mapReduce

全部标签

hadoop - 使用 MapReduce 处理 UDP 数据流

我在使用实时UDP流处理和mapreduce系统时遇到问题。实际上我正在做一个大学项目,我想使用mapreduce来处理这些数据。UDP流是关于来自多个AIS设备的船舶数据。据我所知,ApacheStorm将是解决该问题的方法。但我不知道我可以将mapreduce合并到Storm中。我想合并mapreduce概念,最终我想学习它。另外想请教一下系统架构,正常流程是这样的,系统接收到的UDP流解码流应显示实时分析为将来的数据重试目的而存储。那么谁能建议最好的方法是什么?ApacheStorm可以做到这一点吗? 最佳答案 我先回答这个简

mysql - 线程 "main"java.lang.IncompatibleClassChangeError : Found interface org. apache.hadoop.mapreduce.JobContext 中的异常,但类是预期的?

我正在使用彼此兼容的hadoop1.0和sqoop1.4。当我尝试将表从MySQL导入到hdfs时。sqoopimport--connectjdbc:mysql://localhost/mydemo--tablewordcount-m1--usernameroot--passwordroot123出现以下错误Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.JobContext,butclasswasexpected?我已经尝试在

java - MapReduce HBase 空指针异常

我是大数据的初学者。首先,我想尝试mapreduce如何与hbase一起工作。该场景是基于作为主键的日期对我的hbase使用mapreduce中的字段uas求和。这是我的table:Hbase::Table-testROWCOLUMN+CELL10102010#1column=cf:nama,timestamp=1418267197429,value=jonru10102010#1column=cf:quiz,timestamp=1418267197429,value=\x00\x00\x00d10102010#1column=cf:uas,timestamp=141826719742

hadoop - 将文件拆分为 80% 和 20% 以在 MapReduce 中构建模型和预测的更好方法

我正在尝试将我的HDFS文件分成两部分/文件80%和20%用于分类算法(80%用于建模,20%用于预测)请提供相同的建议。要将80%和20%提取到2个单独的文件中,我们需要知道数据集中记录的确切数量。而且只有在我们遍历数据集时才知道。所以我们需要编写1MapReduceJob来计算记录的数量和第2Mapreduce作业,使用多输入将80%和20%分成2个文件。我在正确的轨道上吗?还是有其他选择。但又是一个小小的困惑如何检查reducer是否填充了80%的数据。 最佳答案 我建议您使用Random分割数据集,使用MultipleOut

hadoop - 为什么增加集群数量可以加快 Hadoop MapReduce 中的查询速度?

我刚开始学Hadoop,在官方的教程里,有提到doubleamountofclusters能够使查询双倍大小的数据与原始数据一样快。另一方面,传统的RDBM仍然花费两倍的时间在查询结果上。我无法掌握集群与处理数据之间的关系。希望有人能给我一些想法。 最佳答案 这是分布式计算的基本思想。如果您有一台服务器处理大小为X的数据,它将花费Y时间。如果您有2X数据,则同一台服务器将(大致)花费2Y时间。但是如果您有10台服务器并行工作(以分布式方式)并且它们都拥有完整的数据(X),那么它们将花费Y/10的时间。如果在一台服务器上拥有10倍以上

performance - 这个 Hadoop -Mapreduce 工作信息是什么意思?

我在1MB数据上运行了Hadoop-Mapreducejobwordcount程序。我对理解以下信息有些疑问:什么是计数器?为什么maptasks是两个,因为我知道map的数量取决于输入分割的数量,输入分割的最小大小是64MB。所以逻辑上应该只有一个Map任务!?reducer的输出数据大小是多少?CPU时间花费,哪个CPU导致每个tasktracker都有自己的CPU和内存?非常感谢![user1@li417-43~]$hadoopjarwordcount1.jarwordcount1.WordCount-Dmapred.reduce.tasks=10wordinwordout10-

csv - 读取大量 csv 文件时 mapreduce 失败

如果我通过mapreduce单独运行它们,我能够读取csv文件。但是当我从一个有n个文件的文件夹运行时,mapreduce作业在100%时失败并显示以下错误:INFOmapreduce.Job:map99%reduce0%INFOmapred.Task:Task:attempt_local1889843460_0001_m_000190_0isdone.AndisintheprocessofcommittingINFOmapred.LocalJobRunner:mapINFOmapred.Task:Task'attempt_local1889843460_0001_m_000190_0

hadoop - SQL-HIVE-PIG-Mapreduce

每行有5列,这5列通常用逗号分隔1columnisname2ndcolumnisdate_of_purchase3rdcolumnisproduct4thcolumnismodeofpayment5thcolumnistotal_amount希望你明白它包含什么数据surender,2014-03-09,TV,OFFLINE,20000surender,2014-01-01,Mobile,ONLINE,18000Raja,2014-09-21,Laptop,ONLINE,30000Surender,2014-10-12,Laptop,ONLINE,40000Raja,2014-FEB-

hadoop - 为什么带有 YARN 的 Mapreduce 卡在 CDH 5.3 上?

使用YARN的Mapreduce无法领先于0%map和0%reduce。我在谷歌计算高内存实例(13GMRAM)上使用ClouderaCDH。机器上有8GB可用内存。你能帮我解决一下吗?sunny@hadoop-m:~$hadoopjar/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/jars/hadoop-mapreduce-examples-2.5.0-cdh5.3.0.jargrepinputoutput'dfs[a-z.]+'14/12/2400:13:53INFOclient.RMProxy:ConnectingtoResou

hadoop - mapreduce - 多个键和值的编码

需要从我的映射器发出两个键和两个值。你能给我提供信息吗,如何为此编写代码和数据类型。例如:-key={store_id:this.store_id,product_id:this.product_id};value={quantity:this.quantity,price:this.price,count:this.count};emit(key,value);问候 最佳答案 根据给定的例子,A​​BBCARADSDACARSDFAB从映射器发出key-AvalueA,ABkey-BvalueB,BBkey-BvalueB,BCk