草庐IT

query阶段

全部标签

hadoop - 迭代 map 减少工作。如何获取 reducer 输出并将其提供给下一阶段?

具体来说,我正在尝试找到一种使用mapreduce计算图中最短路径的方法。我想出的那个似乎需要多轮mapreduce。然而,到目前为止,我在Hadoop上阅读的所有文档似乎都没有清楚地描述运行具有多个阶段的mapreduce作业。从第一阶段的reducer中获取输出,并将其作为输入提供给下一阶段的映射器。我希望Hadoop允许像他这样的东西。 最佳答案 我在这里写了博客:http://codingwiththomas.blogspot.com/2011/04/controlling-hadoop-job-recursion.html

hadoop - 测量 Hadoop 中每个节点的整个映射阶段的持续时间

目前,我知道jobtracker可以显示每个maptask所花费的时间,但我想要的不是每个maptask,而是从第一个maptask到最后一个maptask所花费的时间一个节点。例如:1个Map需要2秒,但是当您有100个map任务并且并非所有任务都可以并行执行时,我如何衡量每个节点的时间?是否可以知道每个节点执行整个映射阶段(所有映射任务)所花费的时间? 最佳答案 您可以使用用户定义的Java计数器来导出每个节点的所有映射器所花费的时间。在Mapper实现中,您需要执行以下操作,1.覆盖设置并记录开始时间。longstartTim

grails - 亚马逊 Redshift : query execution hangs

我使用amazonredshift,有时查询执行挂起,没有任何错误消息,例如此查询将执行:selectextract(yearfromdate),extract(weekfromdate),count(*)fromsome_tablewheredate>'2015-01-0100:00:00'anddate这不是:selectextract(yearfromdate),extract(weekfromdate),count(*)fromsome_tablewheredate>'2014-01-0100:00:00'anddate但只有当我将项目部署到服务器并且在我的本地计算机上执行所有

regex - 使用 REGEX 在 Hive Create 和 Load Query 中获取空值

我有一个日志文件,我需要在其中使用REGEX存储数据。我尝试了下面的查询,但加载了所有NULL值。我已经用http://www.regexr.com/检查了正则表达式,它对我的​​数据工作正常。CREATEEXTERNALTABLEIFNOTEXISTSavl(imeiSTRING,packetSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="(IMEI\\s\\d{15}(\\b(\\d{15})([A-Z0-9]+)))"

2022十二月GBase8a第二次阶段考试02-SQL基础

1.在实际的GBase8a项目中,建议客户使用()类型存储字符串。A.TEXTB.CHARC.VARCHARD.VARCHAR21.C2.以下授权语句()是正确的。A.grantselectoncourseware.*touserbizManB.grantselectcourseware.*tobizMan@localhostC.grantselecton*tobizMan@localhostD.grantselectoncourseware.*tobizMan@localhost2.D3.selectround(123.456,-2)的执行结果:A.123.46B.123.00C.123.4

hadoop - 洗牌阶段持续时间过长 Hadoop

我有一份MR工作,其中洗牌阶段持续时间过长。起初我以为这是因为我从Mapper发出了大量数据(大约5GB)。然后我通过添加Combiner解决了这个问题,从而减少了向Reducer发送的数据。在那之后,洗牌期并没有像我想象的那样缩短。我的下一个想法是通过合并Mapper本身来消除Combiner。我从here得到的想法,它说数据需要序列化/反序列化才能使用Combiner。不幸的是,洗牌阶段仍然是一样的。我唯一的想法是,这可能是因为我使用的是单个Reducer。但这不应该是这种情况,因为在使用Combiner或在Mapper中组合时我不会发出大量数据。这是我的统计数据:以下是我的Had

sorting - 深入了解hadoop中Map reduce作业中map阶段的内部工作?

我正在阅读Hadoop:Thedefinitiveguide3rdedtition通过汤姆怀特。它是了解Hadoop内部结构的极好资源,特别是Map-Reduce我感兴趣的。从书中,(第205页):洗牌和排序MapReduce保证每个reducer的输入都按键排序。系统执行排序的过程——并将map输出作为输入传输到reducer——被称为shuffle。我由此推断,key在发送到reducer之前是经过排序的,说明job的map阶段的输出是排序的。请注意:我不称之为映射器,因为映射阶段包括映射器(由程序员编写)和MR框架的内置排序机制。map侧每个映射任务都有一个循环内存缓冲区,它将输

hadoop - 以下字段 : 'totalSize' and 'rawDataSize' mean in DESCRIBE EXTENDED query output in hive? 是什么意思

如果在任何配置单元表上运行DESCRIBEEXTENDED命令,结果会在输出末尾附近显示totalSize和rawDataSize值。这些字段是什么意思?例如:hive>DESCRIBEEXTENDEDOutputResults:Table(tableName:TablenameXXXXX,dbName:XXxXXX,.................................numRows=116429472,totalSize=3835205544,rawDataSize=35040221600}) 最佳答案 rawDat

hadoop - 大数据信号分析 : better way to store and query signal data

我要使用Hadoop/Spark进行一些信号分析,我需要有关如何构建整个过程的帮助。信号现在存储在数据库中,我们将使用Sqoop读取它,并将转换为HDFS上的文件,其模式类似于:其中信号值只是由浮点逗号分隔的数字组成的字符串。000123S0012015/04/22T10:00:00.000Z0.0,1.0,200.0,30.0...100.0000124S0012015/04/22T10:05:23.245Z0.0,4.0,250.0,35.0...10.0...000126S0032015/04/22T16:00:00.034Z0.0,0.0,200.0,00.0...600.0我

hadoop - 减少阶段后合并输出文件

在mapreduce中,每个reduce任务将其输出写入名为part-r-nnnnn的文件,其中nnnnn是与reduce任务关联的分区ID。map/reduce是否合并这些文件?如果是,如何? 最佳答案 您可以通过调用委托(delegate)整个归约输出文件的合并,而不是自己进行文件合并:hadoopfs-getmerge/output/dir/on/hdfs//desired/local/output/file.txt注意这会在本地合并HDFS文件。运行前确保有足够的磁盘空间 关于h