草庐IT

custom-application

全部标签

unit-testing - MR单元 : Tests fail with custom writable

我正在尝试使用MRUnit为我的hadoop作业实现单元测试.对于我自己的Writable,断言在withOutput(K2k2,V2v2)失败。我已经尝试覆盖Object的equals(Objecto)方法,但这没有帮助。当两个Writable实际上相同时,有什么想法可以告诉MRUnit吗? 最佳答案 为了使runTest()成功,必须覆盖inthashCode()。 关于unit-testing-MR单元:Testsfailwithcustomwritable,我们在StackOve

java - Apache 紧缩 : how to create custom counters

我想添加自定义counters到我的ApacheCrunch使用org.apache.hadoop.mapreduce.Reducer.Context.getCounterAPI的作业。有人知道如何从Crunch管道访问上下文吗? 最佳答案 最明显的地方是org.apache.crunch.DoFn#getCounter你猜怎么着?它在那里... 关于java-Apache紧缩:howtocreatecustomcounters,我们在StackOverflow上找到一个类似的问题:

java - 亚马逊电子病历 : Passing java system property to custom jar

AmazonEMR是否允许将系统属性传递给自定义jar,例如hadoopjar-Dkey=valuemyjob.jar?(上面的key,value在应用程序本身的初始化期间使用,而不是属于hadoop的Configuration对象。)相关话题Howtospecifymapredconfigurations&javaoptionswithcustomjarinCLIusingAmazon'sEMR?讨论了仅通过引导操作将系统属性传递给hadoop守护进程的方法,显然,这不允许对java入口点类执行相同的操作。 最佳答案 如果您不想将

hadoop - 使用哪个 : Custom datatype or TwoDArrayWritable

为了发出2个矩阵作为键值对:Key-MatrixA值-矩阵B。我应该创建一个自定义数据类型还是可以直接使用TwoDArrayWritable?那么自定义类中的compareTo()方法呢? 最佳答案 您肯定需要为您的Key编写一个自定义类,因为TwoDArrayWritable没有实现WritableComparable(即使您只是扩展TwoDArrayWritable类添加接口(interface)和compareTo方法)。至于是否应该在自定义类上使用TwoDArrayWritable-取决于几个因素(在我看来):您的数组的大小

hadoop - Yarn Application master 和容器分配

在YARN中,应用程序主机向资源管理器请求资源,以便可以启动该应用程序的容器。applicationmaster是在启动第一个容器之前等待所有资源分配完毕,还是请求每个容器,当它获得容器的资源时,它开始启动特定的容器?即只有部分资源可用时的情况呢?它是否等待资源被释放?还是根据可用资源继续?MR应用程序主机如何决定MR作业的资源需求?是YARNMR客户端确定这个并将它发送给AM还是AM找到它?如果是这样,这是基于什么?我相信这是可配置的,但我可能在谈论未提供内存和CPU时的默认情况。 最佳答案 不,AM不会等待所有资源分配完毕。相反

hadoop - 我可以强制 YARN 使用 Application Master 容器的主节点吗?

在我的Hadoop/Spark运行期间,我的大主节点硬件几乎什么都不做,因为YARN在每个任务上为其AM使用随机从节点。我更喜欢旧的Hadoop1;当出现问题时,通过这种方式可以避免大量的日志追踪和ssh痛苦。这可能吗? 最佳答案 Spark和YARN节点标签是可能的。标记你的节点使用spark.yarn.am.nodeLabelExpression属性好读:https://developer.ibm.com/hadoop/2017/03/10/yarn-node-labels/ 关于h

java - 如何在 application.properties 文件中的 Spring Boot 应用程序中配置 HikariCP?

我正在尝试在我的SpringBoot(1.2.0.M1)应用程序中设置HikariCP,以便我可以使用它来代替TomcatDBCP进行测试。我想在我的application.properties文件中配置连接池,就像我对Tomcat所做的那样,但我不知道我应该怎么做。我发现的所有示例都显示了JavaConfig样式或使用单独的HikariCP属性文件。有人可以帮我找出在application.properties中配置它的属性名称吗?我还想从使用driverClassName方法切换到DataSourceClassName方法,因为它看起来更干净并且被推荐。这在我的applicatio

java - 如何在 application.properties 文件中的 Spring Boot 应用程序中配置 HikariCP?

我正在尝试在我的SpringBoot(1.2.0.M1)应用程序中设置HikariCP,以便我可以使用它来代替TomcatDBCP进行测试。我想在我的application.properties文件中配置连接池,就像我对Tomcat所做的那样,但我不知道我应该怎么做。我发现的所有示例都显示了JavaConfig样式或使用单独的HikariCP属性文件。有人可以帮我找出在application.properties中配置它的属性名称吗?我还想从使用driverClassName方法切换到DataSourceClassName方法,因为它看起来更干净并且被推荐。这在我的applicatio

hadoop - yarn application id 是如何生成的

我启动了一个yarn应用程序,它给出的id为application_1560618551799_4465795但是,我惊讶地发现1560618551799表示SunJun1601:09:11CST2019,大约是3个月前。我一直以为id中的时间戳会落到今天,请问我能不能从id中算出应用程序什么时候开始?谢谢 最佳答案 遗憾的是,无法从应用程序ID本身推断出应用程序启动时间。SourcecodefortheApplicationId提供以下叙述:ApplicationIdrepresentsthegloballyuniqueident

java - 具有 "customized"键的 MapReduce

我有以下问题:我有很多键值对形式的数据。关键是一些id和值-一些文本。我的目标是将这些对象分组到文本片段以某种方式“相似”的集群中。所以它看起来像是MapReduce的任务,如果将我的文本片段作为键,并将id作为值。但是这样的键不是MapReduce使用的传统方式,并且由于我并不真正了解MapReduces框架的内部实现,所以我不确定这种方式是否有效。所以我的详细想法是:1.在Java中使用一些MapReduce(Hadoop、GridGain)2.为我的文本片段创建特殊类(比如TextKey)3.覆盖类的equals(),在这里打包文本比较逻辑(比如levenstein距离比较,或其