草庐IT

jar - 在不创建 jar 文件的情况下运行 hadoop 作业

我写了一个简单的hadoop作业。现在我想在不创建jar文件的情况下运行它,而不是在网上找到很多教程。我是从运行hadoop(2.0.0+91)的clouderaCHD4发行版的ubuntu平台上的shell脚本调用它的。我无法创建作业的jar文件,因为它依赖于其他几个第三方jar和配置文件,这些文件已经集中部署在我的机器上,并且在创建jar时无法访问。因此,我正在寻找一种可以包含这些自定义jar文件和配置文件的方法。我也不能使用-libjars和DistributedCache选项,因为它们只影响map/reduce阶段,但我的驱动程序类也在使用这些jar和配置文件。我的工作使用多个

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库?

为了加快jar到s3的上传速度,我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法? 最佳答案 您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单,然后如果您从命令行启动EMR,请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者,如果您通过网络界面执行此操作,只需在相应字段中输入位置即可。

java - 让 Ant 把依赖的 jar 放在 ./lib

我是否让antjar任务将依赖的jar放在目录./lib中?目前,ant将它们放在./.原因是带有MapR的AmazonHadoopEMR似乎需要这个。 最佳答案 您可以使用嵌套的zipfileset有一个前缀来做到这一点。 关于java-让Ant把依赖的jar放在./lib,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/12330851/

java - 使用 hadoop 运行一个 jar 示例文件

请放轻松。我刚刚同时启动了linux和hadoop。我对linux的经验几乎为零,对hadoop完全是初学者。我从这里下载了文件hadoop-1.1.1-bin.tar.gz:http://www.motorlogy.com/apache/hadoop/common/hadoop-1.1.1/我能够解压它。我正在按照告诉我运行的教程进行操作:bin/hadoopjarhadoop-*-examples.jar我收到这个错误:agordon@Ubuntu32:/hadoop/hadoop-1.1.1$bin/hadoopjarhadoop-*-examples-1.0.3.jarExce

hadoop - 在 hadoop 服务器上运行 jar 作为服务

我做了一个jar它分析系统日志..为了在HADOOP服务器上运行这个jar,我可以使用像“bin/hadoopjarlog.jar”这样的命令行来完成但我的问题是我想让这个jar在后台可执行,作为Ubuntu主机上的一项服务。任何人都可以帮助我如何将HADOOPjar作为一项服务,以便它可以像Ubuntu机器上的后台服务一样运行......每1小时运行一次。 最佳答案 你有几个选择,这里有两个:配置crontabjob每小时运行一次你的工作,比如(你需要完全限定hadoop的路径和jar本身):0****/usr/lib/hadoo

Hadoop - 提交具有大量依赖项的作业(jar 文件)

我想编写某种“Bootstrap”类,它将监视MQ的传入消息并将映射/归约作业提交到Hadoop。这些作业大量使用了一些外部库。目前我已经实现了这些作业,打包为带有bin、lib和日志文件夹的ZIP文件(我正在使用maven-assembly-plugin将它们联系在一起)。现在我想为Mapper和Reducer提供小型包装器,它们将使用现有应用程序的一部分。据我所知,提交作业时,Hadoop会尝试找出具有映射器/还原器类的JAR文件,并通过网络将此jar复制到数据节点,数据节点将用于处理数据。但不清楚如何告诉Hadoop复制所有依赖项?我可以使用maven-shade-plugin创

java - 如何通过jobClient自动提交jar到hadoop

我目前正在使用maven进行依赖管理。在这种情况下,我编写了一个将map-reduce作业提交到hadoop的方法,然后为该方法编写了一个junit测试。当我运行mvnpackage时它编译成功(所有依赖项都是正确的)它是单元测试失败了。在作业跟踪器上,我可以看到一个ClassNotFoundException表示我的映射、组合和归约类在节点上找不到。我不想使用conf.setJar手动设置这个jar文件的路径。有什么方法可以让它自动运行吗? 最佳答案 您需要一种机制,使您的用户代码(映射器、组合器、缩减器类等)可用于TaskTra

java - 亚马逊电子病历 : Passing java system property to custom jar

AmazonEMR是否允许将系统属性传递给自定义jar,例如hadoopjar-Dkey=valuemyjob.jar?(上面的key,value在应用程序本身的初始化期间使用,而不是属于hadoop的Configuration对象。)相关话题Howtospecifymapredconfigurations&javaoptionswithcustomjarinCLIusingAmazon'sEMR?讨论了仅通过引导操作将系统属性传递给hadoop守护进程的方法,显然,这不允许对java入口点类执行相同的操作。 最佳答案 如果您不想将

java - 如何使用 Maven 组织 Hadoop 的生成 jar

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭9年前。Improvethisquestion我使用Maven成功构建了Hadoop源代码。但是,生成的jar分散在每个模块的每个target文件夹中。当我查看原始的Hadoop二进制文件时,所有jar都很好地组织在一个文件夹中。此外,除了稳定版本中的jars之外,还有其他文件,我在Maven编译结果中找不到。我如何构建Hadoop以获取具有这种组织的二进制文件?我想我缺乏一些关于商业软件生产的非常基础的知识,因为我总是为了研究目的而编写代码

maven - 奥齐 : Could not resolve dependencies for project org. Apache .奥齐 :oozie-sharelib-oozie:jar:4. 0.1

我在尝试构建oozie时遇到错误。Hadoop版本:Hadoop2.4.0JDK:1.8我使用这个命令来运行oozie:./mkdistro.sh-DskipTests运行上面的代码会出现以下错误:我不确定发生了什么问题。[INFO]ReactorSummary:[INFO][INFO]ApacheOozieMain.................................SUCCESS[3.519s][INFO]ApacheOozieClient...............................SUCCESS[1:27.702s][INFO]ApacheOozie