草庐IT

mr_collection

全部标签

hadoop - 如何为 Titan MR 作业设置 yarn 作业队列

Titan版本是1.0.0无论我尝试过什么,所有yarn应用程序最终都在默认队列中。这些是我试过的东西:1)在titan-hbase-solr.properties中设置属性(以下均无效)mapred.job.queue.name=myqueuemapreduce.job.queue.name=myqueuemapred.mapreduce.job.queue.name=myqueue2)在gremlinshell中设置属性gremlin>graph=TitanFactory.open("/usr/iop/4.2.5.0-0000/titan/conf/titan-hbase-solr

hadoop - 配置单元错误 : compiling statement: FAILED: ParseException line 15:0 missing EOF at 'collection' near ''\n''

我是hive的新手,我正在创建一个具有以下属性的表,CREATEEXTERNALTABLEEXTTBL_Transactions(TRANSACTION_IDvarchar(70)COMMENT'UniqueID,`PrimaryKey',DEFINITION_IDvarchar(70)COMMENT'Definition,NullAllowed',USER_IDvarchar(70)COMMENT'Contactid,ForeignKey',PURCHASE_DATETIMETimestampCOMMENT'Saveddattime,NullAllowed',PURCHASE_AMO

hadoop - 失败 : Execution Error, 在配置单元中的连接操作期间从 org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask​​ 返回代码 2

我正尝试在配置单元中对以下两个表运行连接查询-selectb.locationfromuser_activity_ruleainnerjoinuser_info_rulebwherea.uid=b.uidanda.cancellation=true;QueryID=username_20180530154141_0a187506-7aca-442a-8310-582d335ad78dTotaljobs=1OpenJDK64-BitServerVMwarning:ignoringoptionMaxPermSize=512M;supportwasremovedin8.0Executionl

hadoop - 如何使用MR代码处理hadoop中的单个文件

我有一个文件,其中包含meterid、hour、watts...和其他一些字段。我为每个meterid制作了复合键meterid和hour以及每小时的瓦特总和。MR代码适用于单个文件。我有多个文件,文件名是日期之类的14-05-2015.txt,15-05-2015.txtetc.我执行相同的代码并添加与meterid和小时对应的所有瓦特。但我希望瓦特将为与电表ID和小时相对应的每个文件求和,而不是为所有文件求和。 最佳答案 要轻松解决此问题,您可以在编写的组合键中也包含文件名。这将帮助您在缩减阶段之前对为每个文件单独生成的key进

hadoop - 动态计算oozie参数(MR Action 的reducer数量)

在我的oozie工作流程中,我动态创建了一个配置单元表,比如T1。此配置单元操作之后是映射减少操作。我想将reducers属性(mapred.reduce.tasks)的数量设置为等于字段的不同值,比如(T1.group)。关于如何动态设置某些oozie参数的值以及如何从hive不同操作获取参数值到oozie参数的任何想法? 最佳答案 希望对您有所帮助:像您已经做的那样创建配置单元表。执行另一个Hive查询,计算列的不同值并将其写入hdfs中的文件。创建一个Shell操作,它将读取文件并以key=value的形式回显值。为shell

hadoop - Hadoop 中的 MR 作业后创建了多少输出文件?

我有一个小于(非常小)默认block大小的文件。我的Mapper的输出是大量的>对(大于20)。我在某处读到,MR作业后生成的输出文件的数量等于reducer的数量,在我的例子中,reducer的数量大于20。但我在输出中得到了一个文件。然后我做了job.setNumReduceTasks(2)希望它会在输出中生成两个文件。但它仍然生成了一个文件。那么我可以得出输出文件数等于block数的结论吗?还有,是否将一个数据block馈送到一个Mapper? 最佳答案 -block-物理分区:HDFS旨在保存和管理大量数据。默认block大

hadoop - 如何在不同列中使用 COLLECT_SET 和按条件分组

我有这张表:╔═════════╦═════════╦══════════════╗║user_id║item_id║date_visited║╠═════════╬═════════╬══════════════╣║1║123║18/5/2017║║1║234║11/3/2017║║2║345║18/5/2017║║2║456║11/3/2017║╚═════════╩═════════╩══════════════╝我试图(通过Hive查询)实现的是这个结果(假设今天是18/5/2017):╔═════════╦═══════════════════════════╦═══════

hadoop - 从 Eclipse 发出在 Hadoop 上执行 MR 程序的问题

我在从windows上的eclipe到hadoopPseudocluster上执行mapreduce程序时遇到问题UbuntuVM在同一台机器上运行。我正在运行hadoop1.0.3。我尝试使用eclipseJuno以及使用eclipseplugin1.0.3的Ganymede,但没有成功。每当我将LinuxVM添加为mapreduce位置时,我都会收到连接错误。我也试过像下面这样直接通过配置设置属性,但没有成功。我将其作为java应用程序运行。Configurationconf=newConfiguration();conf.set("fs.default.name","hdfs:/

java - 如何为从配置单元 jdbc 查询启动的 mr 作业指定额外的 jar?

我正在尝试通过使用avro存储格式的jdbc查询一个配置单元表,但我在查询产生的mr作业中收到一个类未找到错误。奇怪的是,我可以从配置单元shell运行查询而不会发生异常。我可以运行一个不生成mapreduce作业的查询(select*fromtablelimit10)并且它工作正常。2014-03-1210:23:34,040WARN[main]org.apache.hadoop.mapred.YarnChild:Exceptionrunningchild:java.io.IOException:java.lang.reflect.InvocationTargetExceptiona

Hadoop 2.6.0 官方实例 : Yarn (MR2) much slower than Map Reduce (MR1) in single node setup

我开始玩hadoop2.6.0,根据officialdocumentation搭建了一个伪分布式单节点系统.当我运行简单的MapReduce(MR1)示例(参见“伪分布式操作->执行”)时,总执行时间约为7秒。更准确地说,bash的时间给出:real0m6.769suser0m7.375ssys0m0.400s当我通过Yarn(MR2)运行相同的示例时(参见“伪分布式操作->YARNonSingleNode”),总执行时间约为100sec,因此非常慢。bash的时间给出:real1m38.422suser0m4.798ssys0m0.319s因此,(出于某种原因)在用户空间之外存在大量