草庐IT

uber-jar

全部标签

hadoop - 从 AWS 上 EMR 上的 jar 写入 S3 中的文件

有什么方法可以将我的Javajar中的文件写入将写入我的reduce文件的S3文件夹?我试过类似的东西:FileSystemfs=FileSystem.get(conf);FSDataOutputStreamFS=fs.create(newPath("S3folderoutputpath"+"//Result.txt"));PrintWriterwriter=newPrintWriter(FS);writer.write(averageDelay.toString());writer.close();FS.close();这里的Result.txt是我要写入的新文件。

hadoop - WARN mapred.JobClient : No job jar file set. 可能找不到用户类

我的代码是importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*;importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;importorg.apache.hadoop.mapreduce.lib.input.TextInputFormat

java - 无法为 Hadoop 生成 jar 文件

我有16个Java文件,我正在尝试使用以下命令为Hadoop生态系统生成JAR文件:javac-classpath/usr/local/hadoop/hadoop-core-1.0.3.jar:/usr/local/hadoop/lib/commons-cli-1.2.jarJsonV.javaJsonV.java是具有main函数的类,这个Java文件调用其他Java文件。我收到以下错误,有人可以帮我解决这个问题吗?JsonV.java:37:error:cannotfindsymbolJSONObjectobj=newJSONObject(tuple[i]);^symbol:cla

hadoop - 在 Spark 作业上使用 ElasticSearch 时 Guava jar 冲突

所以我有一段代码可以将记录索引到弹性中。此代码使用spark和hadoop运行。我刚刚将Elasticsearch升级到2.3.1。当我在本地机器上运行我的代码时,它运行良好。当我尝试使用spark提交作业运行它时,我得到了java.lang.NoSuchMethodError:com.google.common.util.concurrent.MoreExecutors.directExecutor()Ljava/util/concurrent/Executor;在谷歌搜索后,我意识到问题出在Guava上,所以在我的pom.xml中我只是把com.google.guavaGuava1

hadoop - 在 PIG 中为 UDF 添加依赖 jar

我有一个UDF,用于对记录进行自定义处理。在eval函数中,我使用第三方jar进行处理。我看到了作业jar文件,但它不包含此依赖项。有什么办法可以在作业jar中包含依赖jar吗?(为了测试,我在本地模式下运行集群)。或者我可以使用分布式缓存使依赖的jar可用于UDF吗?我试过在pig中注册依赖的jar。对于第一个注册的jar(所有udf都捆绑在这个jar中)我没有遇到问题。但是对于第二个jar,当UDF尝试从中访问类时,我遇到了问题。REGISTER'/home/user/pig/udfrepository/projectUDF.jar'REGISTER'/home/user/thri

java - 静态变量在可运行 jar 中不起作用(hadoop mapreduce)

这个问题在这里已经有了答案:HadoopMapReducereferencestaticobjects(3个答案)关闭8年前。我是hadoop的新手。我正在尝试在我的映射器中使用静态变量。我在主类中声明静态变量publicstaticStringvar="";之后我在我的main()中给出了一些动态值var="123456";然后我在映射器类中的map()中使用这个变量但它给我nullpointerException。当我使用Eclipse时,我能够在具有maven依赖项的普通Java核心项目中执行但是当我使它成为可运行的jar并且它在hadoop服务器上运行它给我nullPointe

Hadoop 1.2.1 上的 Apache Nutch 1.9 在 jar 文件中没有 Crawl 类

我正在运行一个由五个Cubieboard组成的集群,它们是类似RaspberryPi的ARM板,上面安装了(因为是32位)Hadoop1.2.1。有一个NameNode和四个SlaveNode。在我的期末论文中,我想安装ApacheNutch1.9和Solr来进行大数据分析。我做了这样解释的设置:http://wiki.apache.org/nutch/NutchHadoopTutorial#Deploy_Nutch_to_Multiple_Machines当启动用于在整个集群上部署Nutch的Jar作业文件时,会出现未找到类的异常,因为自nutch1.7以来不再有Crawl类:htt

java - 如何将 Jar 文件传递​​给 OOZIE shell 节点中的 shell 脚本

您好,我在oozieshell操作工作流中执行的脚本中运行java程序时出现以下错误。Stdoutput2015-08-2503:36:02,636INFO[pool-1-thread-1](ProcessExecute.java:68)-Exceptioninthread"main"java.io.IOException:Erroropeningjobjar:/tmp/jars/first.jarStdoutput2015-08-2503:36:02,636INFO[pool-1-thread-1](ProcessExecute.java:68)-atorg.apache.hadoo

unit-testing - 如何在 oozie 工作流中运行 hadoop 示例 jar?

这让我发疯了——我觉得自己像个白痴,想弄清楚如何做到这一点!我正在构建一个使用Oozie客户端库来运行工作流的应用程序。真的很简单,我想为我的代码构建一些测试,这样我就可以检查我是否在做正确的事情实际代码-感谢oozie客户端库-非常简单。我已经安装了Hadoop并且可以运行标准的wordcount提供的示例,没有任何问题,但是我不知道如何通过Oozie运行东西,它让我抓狂。所以我想我会作弊并问一些知道的人(蠕变蠕变)。我如何转换:bin/hadoopjarhadoop*examples*.jarwordcountinput/somedataoutputOozie工作流?我假设它是一个

map - 在没有 Hdfs 的情况下运行 jar 文件 map reduce

我已经从我的eclipse项目中捆绑了一个jar。我想将参数传递给jar。基本上是jar的输入文件。我想知道如何提供不在Hdfs中的输入文件。我知道那不是现在hadoop的作品,但这是为了测试目的。Eclipse具有本地文件的功能。有没有办法通过命令行来做到这一点? 最佳答案 您可以通过从命令行覆盖作业跟踪器和文件系统属性,以“本地”模式运行hadoop:hadoopjar-fslocal-jtlocal您需要使用GenricOptionsParser(如果您使用ToolRunner来启动您的工作,这是常态。