草庐IT

instant-run

全部标签

c# - 通过 .net SDK : All MapReduce jobs run with 1 reducer 配置的 HDInsight 集群

我对Hadoop相对缺乏经验,但在过去一年左右的时间里我一直在使用样板代码,通过HDInsight.netSDK编写和提交C#MapReduce控制台应用程序。这些工作似乎不断地与许多映射器一起运行,但只有一个reducer。我的reducer承担了相当多的繁重工作,因此只有一个reducer似乎成了瓶颈。通常我可以通过RDP进入集群并观察作业像液体黄金一样运行,然后在reducer启动时磨成……非常慢的东西)。我如何控制应用于reducer的资源量?我可以将更多资源分配给reducer而不是映射器吗?集群以编程方式启动(根据here)-我可以看到我可以控制配置文件中的各种参数:我走在

hadoop - 黑斑羚 : Running sum of 1 hour

我想在1小时内统计每个ID的记录。我尝试了一些IMPALA查询,但没有任何运气。我有如下输入数据:预期的输出是:我试过了:selectconcat(month,'/',day,'/',year,'',hour,':',minute)time,id,count(1)over(partitionbyidorderbyconcat(month,'/',day,'/',year,'',hour,':',minute)rangebetween'1hour'PRECEDINGANDCURRENTROW)requestfromrt_requestwhereconcat(year,month,day,

apache-spark - 使用 Airflow dag run 创建 EMR 集群,任务完成后 EMR 将终止

我有Airflow作业,它们在EMR集群上运行良好。我需要的是,假设我有4个Airflow作业需要EMR集群,假设20分钟才能完成任务。为什么我们不能在DAG运行时创建一个EMR集群,一旦作业完成,它就会终止创建的EMR集群。 最佳答案 当然,那将是对资源最有效的利用。让我警告你:这里面有很多细节;我会尽力列出尽可能多的内容。我鼓励您添加自己的综合答案,列出您遇到的任何问题和解决方法(一旦您解决了这个问题)关于集群创建/终止对于集群的创建和终止,您有EmrCreateJobFlowOperator和EmrTerminateJobFl

java - (Hadoop) : reduce method is not getting executed/called while running mapreduce job

我在执行我的mapreduce作业时遇到问题。作为我的mapreduce任务的一部分,我正在使用mapreduce连接,其中包括多个map方法和单个reducer方法。我的两个map方法都被执行了,但是我的reducer没有被我的驱动程序类执行/调用。因此,最终输出只有在我的map阶段收集的数据。我是否在reduce阶段使用了错误的输入和输出值?map和reduce阶段是否存在输入输出不匹配?在这方面帮助我。这是我的代码..publicclassCompareInputTestextendsConfiguredimplementsTool{publicstaticclassFirstF

java - 传递给 Mapper 函数(setup、map、run、cleanup)的 Context 是否始终相同?

传递给设置、映射、运行、清理的上下文是否相同映射器?会不会有不一样的情况?能否将上下文作为设置中的成员字段?Mapper 最佳答案 是的,在相同映射器中,它是setup()中的同一个上下文对象。,map()和cleanup().如您所见,这些方法是从run()中调用的,该方法如下所示:publicvoidrun(Contextcontext)throwsIOException,InterruptedException{setup(context);while(context.nextKeyValue()){map(context.g

java - 哈多普 : datanode not running?

我通过this为单节点设置配置和部署了hadoop教程。一切都部署得很好,但是当我执行jps以查看Activity进程时,未显示数据节点。我手动尝试通过转到$HADOOP_HOME/bin来启动数据节点:hadoop-datanode,但无济于事。基本上总结一下,hadoop集群根本没有运行datanode进程。另外,我想知道一台机器是否可以安装2个hadoop。我将一个用于mapreduce进程,另一个用于搜索引擎。所以他们的目录不同,可以吗?此外,我一次运行一个hadoop操作。编辑1#:-如果这有帮助,这是我尝试通过$HADOOP_HOME运行数据节点时的日志。root@thin

hadoop - pig : Running two aggregation functions

我是Pig的新手,想运行两个聚合函数,但我不知道该怎么做。我的数据包括每行一次购买交易,其中我有一个SKU(库存标识符)和客户为SKU支付的价格(价格可能会有所不同):skuprice_paid-------------12321.7078962.1212322.1012319.7845611.9178955.13我想生成以下列表,其中包含SKU、购买该SKU的次数以及为该SKU支付的平均价格。该列表应按计数降序排列。skucountave_price_paid--------------------------123321.19789258.63456111.91如有任何帮助,我们将

shell - Oozie 和 Hue : Permission Denied while running shell script

我在HDFS/user/user中有一个shell脚本sample_shell.sh,如下所示:source/user/user/params_new.cfgecho"HELLOWORLD"echo$layerparams_new.cfg也位于HDFS/user/user目录中,其内容为:layer="S"我是Oozie的新手,正在尝试在Hue中设置一个Oozie工作流程,它将执行sample_shell.sh脚本。属性如下:${jobTracker}${nameNode}/user/user/sample_shell.sh/user/user/sample_shell.sh#samp

hadoop - 运行 pig 脚本给出错误 : job has failed. Stop running all dependent jobs

我需要帮助来了解为什么在运行pig脚本时出现错误。但是当我在较小的数据中尝试相同的脚本时,它会成功执行。有几个类似问题的问题,但没有一个有解决方案。我的脚本是这样的:A=load‘test.txt’usingTextLoader();B=foreachAgenerateSTRSPLIT($0,’”,”’)ast;C=FILTERBBY(t.$1==2andt.$2matches‘.*xxx.*’);StoreCintotemp;错误是:org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLaunch

java - map 缩小 : Unabale to run the code due to number of errors

请看下面的代码Map.javapublicclassMapextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();@Overridepublicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringline=value.toString();StringTokenizertokenizer=newStringTokenizer(l