草庐IT

uber-jar

全部标签

java - 将 Nutch 编译成一个 Jar 文件(并运行它)的过程是什么?

我正在尝试以一种我可以通过包含所有依赖项的JAR文件访问其所有功能的方式运行Nutch爬虫。例如,java-jarnutch-all-1.2.jar-crawl并在稍后阶段,使用hadoop调用它。目前,正在做一个java-jarnutch-1.2.jar在nutch目录下存在的JAR文件导致错误,FailedtoloadMain-Classmanifestattributefromnutch-1.2.jar我相信这是因为这个特定的JAR不包含listXML文件或其他依赖JAR。为此,您建议将nutch构建到一个JAR中的最佳方法是什么?谢谢! 最佳答案

hadoop - 如何在不重启hadoop集群的情况下将jar添加到类路径中并生效?

我写了一些引用一些外部jar的mapreduce作业。所以我将它们添加到“正在运行的”集群的CLASSPATH中以运行作业。一旦我尝试运行它们,我就得到类未找到异常。我用谷歌搜索了修复它的方法,我发现我需要重新启动集群才能应用更改后的CLASSPATH,它确实有效。哦,糟糕!每次我将新的jar添加到CLASSPATH时,我真的需要重新启动集群吗?我认为这没有道理。有谁知道如何在不重启的情况下应用更改?我想我需要添加一些细节来征求您的意见。我编写了一个自定义的hbase过滤器类并将其打包在一个jar中。我编写了一个使用自定义过滤器类的mapreduce作业并将其打包在另一个jar中。因为

hadoop - 是否可以使用多个 jar 来指定 hadoop 中的作业?

我通常在不同的jar文件中有公共(public)/共享库和实际工作代码。是否可以只重新编译一个jobjar文件来执行hadoop命令hadoopjarasd?如果没有,是否有简化jar包装的解决方法? 最佳答案 我正在使用Ant来制作作业jar。要在buildConfig.xml文件中包含所有公共(public)/共享库,您必须添加以下行:这是构建配置文件的最简单示例。 关于hadoop-是否可以使用多个jar来指定hadoop中的作业?,我们在StackOverflow上找到一个类似的

jar - 在不创建 jar 文件的情况下运行 hadoop 作业

我写了一个简单的hadoop作业。现在我想在不创建jar文件的情况下运行它,而不是在网上找到很多教程。我是从运行hadoop(2.0.0+91)的clouderaCHD4发行版的ubuntu平台上的shell脚本调用它的。我无法创建作业的jar文件,因为它依赖于其他几个第三方jar和配置文件,这些文件已经集中部署在我的机器上,并且在创建jar时无法访问。因此,我正在寻找一种可以包含这些自定义jar文件和配置文件的方法。我也不能使用-libjars和DistributedCache选项,因为它们只影响map/reduce阶段,但我的驱动程序类也在使用这些jar和配置文件。我的工作使用多个

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库?

为了加快jar到s3的上传速度,我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法? 最佳答案 您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单,然后如果您从命令行启动EMR,请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者,如果您通过网络界面执行此操作,只需在相应字段中输入位置即可。

java - 让 Ant 把依赖的 jar 放在 ./lib

我是否让antjar任务将依赖的jar放在目录./lib中?目前,ant将它们放在./.原因是带有MapR的AmazonHadoopEMR似乎需要这个。 最佳答案 您可以使用嵌套的zipfileset有一个前缀来做到这一点。 关于java-让Ant把依赖的jar放在./lib,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/12330851/

java - 使用 hadoop 运行一个 jar 示例文件

请放轻松。我刚刚同时启动了linux和hadoop。我对linux的经验几乎为零,对hadoop完全是初学者。我从这里下载了文件hadoop-1.1.1-bin.tar.gz:http://www.motorlogy.com/apache/hadoop/common/hadoop-1.1.1/我能够解压它。我正在按照告诉我运行的教程进行操作:bin/hadoopjarhadoop-*-examples.jar我收到这个错误:agordon@Ubuntu32:/hadoop/hadoop-1.1.1$bin/hadoopjarhadoop-*-examples-1.0.3.jarExce

hadoop - 在 hadoop 服务器上运行 jar 作为服务

我做了一个jar它分析系统日志..为了在HADOOP服务器上运行这个jar,我可以使用像“bin/hadoopjarlog.jar”这样的命令行来完成但我的问题是我想让这个jar在后台可执行,作为Ubuntu主机上的一项服务。任何人都可以帮助我如何将HADOOPjar作为一项服务,以便它可以像Ubuntu机器上的后台服务一样运行......每1小时运行一次。 最佳答案 你有几个选择,这里有两个:配置crontabjob每小时运行一次你的工作,比如(你需要完全限定hadoop的路径和jar本身):0****/usr/lib/hadoo

Hadoop - 提交具有大量依赖项的作业(jar 文件)

我想编写某种“Bootstrap”类,它将监视MQ的传入消息并将映射/归约作业提交到Hadoop。这些作业大量使用了一些外部库。目前我已经实现了这些作业,打包为带有bin、lib和日志文件夹的ZIP文件(我正在使用maven-assembly-plugin将它们联系在一起)。现在我想为Mapper和Reducer提供小型包装器,它们将使用现有应用程序的一部分。据我所知,提交作业时,Hadoop会尝试找出具有映射器/还原器类的JAR文件,并通过网络将此jar复制到数据节点,数据节点将用于处理数据。但不清楚如何告诉Hadoop复制所有依赖项?我可以使用maven-shade-plugin创

java - 如何通过jobClient自动提交jar到hadoop

我目前正在使用maven进行依赖管理。在这种情况下,我编写了一个将map-reduce作业提交到hadoop的方法,然后为该方法编写了一个junit测试。当我运行mvnpackage时它编译成功(所有依赖项都是正确的)它是单元测试失败了。在作业跟踪器上,我可以看到一个ClassNotFoundException表示我的映射、组合和归约类在节点上找不到。我不想使用conf.setJar手动设置这个jar文件的路径。有什么方法可以让它自动运行吗? 最佳答案 您需要一种机制,使您的用户代码(映射器、组合器、缩减器类等)可用于TaskTra