草庐IT

uber-jar

全部标签

python - 使用 Hadoop 运行 jar 文件 - Python

我有一个现有的Python程序,它具有如下所示的一系列操作:连接到MySQLDB并将文件检索到本地FS。运行对这些文件进行操作的程序X。类似于:java-jarX.jar这将打开文件夹中的每个文件并对它们执行一些操作,并将相同数量的转换文件写入另一个文件夹。然后,运行对这些文件进行操作的程序Y:java-jarY.jar这将创建多个文件,每个文件一行,然后使用合并功能将其合并为一个文件。此合并后的文件将作为进一步操作和分析的输入,这些操作和分析对这个问题来说并不重要。我想利用Hadoop来加速操作Y,因为如果存在以下情况,它需要很长时间才能完成:a)更多数量的文件或b)要操作的大输入文

hadoop - 将 jars 添加到启动 map reduce 作业的代码的类路径中

我正在尝试从实现Tool接口(interface)的应用程序启动mapreduce作业。该应用程序几乎没有做其他事情,例如mapreduce作业的先决条件。此类使用一些第三方库,如何在运行jar时使用以下命令将这些jar添加到类路径:hadoopjar[args]从这里Cloudera'spost我试图将HADOOP_CLASSPATHenvvar设置为第三方jar,但没有成功。上面提到的第三方jar仅由启Action业的类而不是Mapper/Reducer类需要。所以我不需要把它们放在分布式缓存中。当我在$HADOOP_HOME/lib下复制这些我需要的第三方jar时,它可以工作,但

macos - 找不到 pig-core-h2.jar。执行 'ant -Dhadoopversion=23 jar' ,然后重试

我下载了pig0.14.0,我在MACOSX上运行Hadoop2.6.0。我在https://github.com/ucbtwitter/getting-started/wiki/Installing-Pig遵循了PIG的所有安装步骤。.我已经如前所述正确设置了JAVA_HOME。即使在运行ant“-Dhadoopversion=23jar”命令后,我仍收到相同的错误“找不到pig-core-h2.jar。执行‘ant-Dhadoopversion=23jar’,然后重试”。 最佳答案 这个错误不断出现找不到pig-core-h2.

java - 打开作业 jar : file in hdfs 时出错

我一直在尝试修复这个问题,但不确定我在这里犯了什么错误!你能帮我解决这个问题吗?非常感谢!我的程序:打包hadoopbook;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hado

hadoop - vertica jar

我正在尝试将数据从Vertica传输到Hive。根据手册,应将以下设置为输入格式:-inputformatcom.vertica.hadoop.deprecated.VerticaStreamingInput但是hadoop-verticajar有org.apache.hadoop.vertica.VerticaStreamingInput类而不是上面的类。所以它抛出以下异常:Exceptioninthread"main"java.lang.RuntimeException:classorg.apache.hadoop.vertica.VerticaStreamingInputnoto

hadoop - 使用 Yarn 客户端在 Google Cloud 上的 Hadoop 中运行 JAR

我想使用Yarn客户端在GoogleCloud上的Hadoop中运行一个JAR。我在hadoop的master节点使用这个命令spark-submit--classfind--masteryarn-clientfind.jar但它返回这个错误15/06/1710:11:06INFOclient.RMProxy:ConnectingtoResourceManagerathadoop-m-on8g/10.240.180.15:803215/06/1710:11:07INFOipc.Client:Retryingconnecttoserver:hadoop-m-on8g/10.240.180

java - Hadoop项目启动时需要的JAR有哪些?

这一定看起来像是一个愚蠢的问题,但我是Hadoop的新手并且正在尝试运行一个简单的示例。但是,我一直遇到JAR文件的问题并且似乎没有正确的导入。我正在使用clouderaCDH4,它有很多JAR文件可供选择,每个文件都有多个版本。因为我刚刚开始,所以无法区分。目前我得到这个异常(exception):Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/configuration/Configurationatorg.apache.hadoop.metrics2.lib.DefaultMetri

java - 使用hadoop jar时如何增加堆大小?

我正在使用hadoopjar命令运行一个程序。但是,为了使该程序运行得更快,我需要增加Hadoop的堆大小。我尝试了以下方法,但它没有任何效果(我有hadoop版本2.5),即使在同一个终端上也是如此。exportHADOOP_HEAPSIZE=16384exportHADOOP_OPTS="-Xmx16g"我认为的另一种方法是将以下内容添加到mapred-site.xml文件中,但不幸的是我不是管理员,所以不能这样做。mapred.child.java.opts-Xmx16384m还有其他方法吗? 最佳答案 我通过修改HADOOP

Java编译不产生.jar

我已经创建了简单的“WordCount.java”文件来实现一个简单的hadoop程序,并且在编译时,它不会创建一个.jar文件。在WordCount.class、WordCount$Map.class和WordCount$Reduce.class中创建的文件。我查看了WordCount.java文件,它确实包含一个publicstaticvoidmain(String[]args)例程,所以它应该创建一个.jar文件,对吧?这是我很长一段时间以来第一次接触Java,因此很容易在Java的编译方式上出错,但是给定以下代码,它不应该在正确编译后给我一个.jar文件吗?packageorg

java - 如何用多个外部jar编译一个java源文件?

我有一个hadoop应用程序。我写了一个java程序,它需要org.json.jar包和hadoop-core.jar。我使用以下linux命令编译此源文件。mkdirq3_classesjavac-classpath${HADOOP_HOME}/hadoop-core.jar:${HADOOP_HOME}/org.json-20120521.jar-dq3_classesETLQ3.javajar-cvfq3.jar-Cq3_classes/.编译成功。但是当我用下面的命令运行这个程序时。(相同的命令成功应用于WordCount示例。)hadoopjarq3.jarMainClass