草庐IT

Hadoop LZO native 库和 JAR 不可用

我从http://apache.techartifact.com/mirror/hadoop/common/hadoop-1.1.2/hadoop-1.1.2-bin.tar.gz下载了Hadoop1.1.2.它的native目录没有LZOnative库。$找到~/softwares/hadoop-1.1.2/lib/native//home/deepakkv/softwares/hadoop-1.1.2/lib/native//home/deepakkv/softwares/hadoop-1.1.2/lib/native/Linux-i386-32/home/deepakkv/sof

hadoop - 将可执行 jar 发送到 hadoop 集群并作为 "hadoop jar"运行

我一般用main方法制作一个可执行的jar包,然后通过命令行“hadoopjarSome.jarClassWithMaininputoutput”运行在这个主要方法中,可以配置作业和配置,配置类有一个setter来指定映射器或缩减器类,如conf.setMapperClass(Mapper.class)。但是,在远程提交作业的情况下,我应该设置jar和Mapper或更多的类来使用hadoopclientapi。job.setJarByClass(HasMainMethod.class);job.setMapperClass(Mapper_Class.class);job.setRedu

hadoop - 增加 jar 中类的 Java 堆大小

我需要执行包含在JAR文件中的java程序,但我收到一个错误,要求增加java堆大小。我需要使用命令行增加堆大小。我尝试了java-Xmx6144M-d64但它没有用。另一方面,java-Xmx6144MClassName需要ClassName。如何指定jar中的类名?是否有一些命令可以增加所有类的Java堆?这里是错误:ava.lang.OutOfMemoryError:GCoverheadlimitexceededatjava.util.regex.Pattern.compile(Pattern.java:1047)atjava.lang.String.replace(String

java - 提交远程应用到hadoop时如何设置jar路径?

我尝试运行网站上的第一个示例http://hadoop.apache.org/docs/current2/hadoop-yarn/hadoop-yarn-site/WritingYarnApplications.html下面是我的代码PathjarPath=newPath("target/HadoopStudy-0.0.1-SNAPSHOT.jar");FileSystemfs=FileSystem.get(conf);FileStatusjarStatus=fs.getFileStatus(jarPath);LocalResourceamJarRsrc=Records.newReco

java - 运行 Hadoop 示例 Jar

请帮忙。我在网上搜索,找不到任何东西。大多数类似的问题都没有答案或没有帮助。您好,我正在尝试运行Pi的Hadoop示例。我的设置全部完成并成功。我运行了bim/hadoopdfs-ls并且没有收到任何错误。但是这个:Sanjanas-MacBook-Pro:hadoopsanjanaagarwal$/usr/local/Hadoop/bin/hadoopjar$HADOOP_HOME/hadoop-examples-*.jarpi10100NumberofMaps=10SamplesperMap=10013/11/2120:57:47WARNhdfs.DFSClient:DataStr

hadoop map-reduce : how to deploy non-jar files

您好,当我使用hadoopjar..args..提交我的jar以进行map-reduce作业时,我想知道如何部署非jar文件。对于hadoop流,有--file选项来发送文件,对于spark,我们有--files但我在文档中找不到这样的选项。在提交hadoopmap-reduce作业时,是否可以将非jar文件与我的jar一起发送? 最佳答案 Applicationscanspecifyacommaseparatedlistofpathswhichwouldbepresentinthecurrentworkingdirectoryof

java - 如何在 Hortonworks VM 上的 Spark 上运行 .jar?

我是HortonworksVM的新手,我很困惑。我正在尝试在Spark上运行.jar文件。通常我通过运行在Windows上进行本地测试spark-submit--driver-memory4g--classen.name.ClassName%CODE%/target/program.jar但由于我需要Hive,所以我想我应该转移到HortonworksVM以在本地进行测试。现在,我已经通过Hortonworks的Ambari的HDFS文件GUI将我的.jar和输入文件上传到HDFS(到/tmp/my_code目录)。接下来是什么?我也找到了命令行,但是如何从VM的命令行访问HDFS上的

hadoop,如何在尝试运行 mapred 作业时包含 3part jar

我们知道,new需要将所有需要的类打包到job-jar中并上传到服务器。它太慢了,我想知道是否有一种方法可以指定第三方jar包括执行map-red作业,这样我就只能在没有依赖项的情况下打包我的类。PS(我发现有一个“-libjar”命令,但我不知道如何使用它。这是链接http://blog.cloudera.com/blog/2011/01/how-to-include-third-party-libraries-in-your-map-reduce-job/) 最佳答案 那些叫做genericoptions.因此,为了支持这些,您

java - 在 hadoop 中运行 jar 文件时出错

在hadoop中运行jar文件时,出现空指针异常。我无法理解问题所在。以下是我的驱动类:packagemapreduce;importjava.io.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.apache.hadoop.util.*;publicclassStockDriverextendsConfiguredimplementsTool{publicint

python - 如何为 Amazon EMR 上的 Hadoop Streaming 作业加载额外的 JAR

长话短说我如何上传或指定额外的JAR到AmazonElasticMapReduce(AmazonEMR)上的Hadoop流作业?长版我想分析一组Avro文件(>2000个文件)在AmazonElasticMapReduce(AmazonEMR)上使用Hadoop。这应该是一个简单的练习,通过它我应该对MapReduce和AmazonEMR有一定的信心(我对这两个都是新手)。因为python是我最喜欢的语言,所以我决定使用HadoopStreaming.我在python中构建了一个简单的映射器和缩减器,并在本地Hadoop(单节点安装)上对其进行了测试。我在本地Hadoop安装上发出的命