jar包

java - 带有 --jars 的 spark-submit yarn-cluster 不起作用？

我正在尝试通过以下命令向CDHyarn集群提交一个spark作业我尝试了几种组合，但都不行......我现在所有的poijar都位于我的本地/root以及HDFS/user/root/lib中，因此我尝试了以下操作spark-submit--masteryarn-cluster--class"ReadExcelSC"./excel_sc.jar--jars/root/poi-3.12.jars,/root/poi-ooxml-3.12.jar,/root/poi-ooxml-schemas-3.12.jarspark-submit--masteryarn-cluster--class"

hadoop - Hive on Spark : Missing <spark-assembly*. jar>

我正在运行Hive2.1.1、Spark2.1.0和Hadoop2.7.3。我尝试按照HiveonSpark:GettingStarted构建Spark:./dev/make-distribution.sh--name"hadoop2-without-hive"--tgz"-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"但是，我在spark目录下找不到任何spark-assemblyjar文件(find.-name"spark-assembly*.jar"没有返回任何内容)。我没有将spark-assemblyjar链接到HIVE_

spark-assembly amp code Spark hadoop apache-spark hive

java - 亚马逊电子病历 : Passing an XML or properties file to a JAR

我一直在hadoop集群上从单个JAR文件运行多个mapreduce作业。JAR的Main接受一个XML文件作为命令行参数。XML文件包含每个作业的输入和输出路径(名称-值属性对)，我使用它们来配置每个mapreduce作业。我可以像这样将路径加载到配置中Configurationconfig=newConfiguration(false);config.addResource(newFileInputStream(args[0]));我现在正尝试使用Amazon的ElasticMapReduce运行JAR。我尝试将XML文件上传到S3，但当然使用FileInputStream从S3加

病历 properties section FileInputStream 文件包 java jar hadoop amazon-s3 emr

hadoop - oozie中如何指定多个jar文件

我需要解决以下问题:我的项目有两个jar，其中一个jar包含所有bean类，如Employee等，另一个jar包含使用第一个jarbean类的MR作业，所以当我尝试将MR作业作为一个简单的java程序运行时，我面临找不到类的问题(找不到com.abc.Employee类，因为它在另一个jar中)所以任何人都可以为我提供如何解决问题的解决方案....因为实时可能有很多jar而不是1或2如何指定所有那些jar可以任何人请尽快回复。最佳答案在存储Oozie工作流的HDFS目录中应该有一个lib文件夹。你可以将两个jar文件放在这个文件

hadoop oozie section jar mapreduce

hadoop - CDH Hadoop 中 json Serde JAR 与 Hive/Hue/MapReduce 一起使用的最佳位置

我正在使用Hive/Hue/MapReduce和jsonSerde。为了让它工作，我将json_serde.jar复制到每个集群节点上的几个lib目录:/opt/cloudera/parcels/CDH/lib/hive/lib/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/lib/opt/cloudera/parcels/CDH/lib/hadoop/lib/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/lib...在集群的每次CDH更新中，我都必须再次执行此操作。是否有更优雅的方式

MapReduce hadoop strong section lib hive cloudera hue

java - 通过Java程序提交Hadoop Jar

我是Hadoop新手。我们的团队正在编写一个hadoop作业调度程序。目前我已经很好地安装了hadoop。我可以使用在命令行中提交Hadoop作业hadoopjarwordcount.jarinputoutput现在我想在java程序中运行这个命令。换句话说，使用java来完成与hadoopjarwordcount.jarinputoutput相同的事情。我可以调用任何API来从Java提交作业吗？最佳答案是的，您可以使用ProcessBuilder或Runtime.exec执行任意系统命令编辑:我提出的解决方案是按照您指定的方

Hadoop java section noreferrer

java - MapReduce 新 API Job.getInstance(Configuration, String) 的 Jar 文件

已安装Hadoop2.2。尝试删除已弃用的APIJobjob=newJob(conf,"wordcount");来自Wordcount示例(Hadoop附带)here将已弃用的API替换为编辑:Jobjob=Job.getInstance(conf,"wordcount");编译错误为Job.getInstancecannotberesolvedtoatype.已经导入的Job类(旧API或MR1)似乎没有此方法。哪个jar包含带有Job.getInstance(Configuratio,String)方法的新Job类如何解决？迁移到MapReducev2的示例是否有任何其他更改？

Configuration getInstance hadoop section code java

python - Hadoop 2.7.3 Streaming Jar 无效

我是Hadoop的新手，正在尝试使用this运行一个简单的程序.我已经将本地示例数据复制到hdfs，但是在我的mapreduce作业期间，当我按照官方apache文档运行此命令时hadoopjarhadoop-streaming-2.7.3.jar\-input/user/hduser/gutenberg/*\-output/user/hduser/gutenberg-output\-mapper/home/hduser/mapper.py\-reducer/home/hduser/reducer.py我收到这个错误NotavalidJAR:/usr/lib/hadoop-stream

Streaming python section hadoop jar

jdbc - Hadoop Hive - 如何将 'add jar' 用于 Hive JDBC 客户端？

所以，我让hdfs和hive一起工作。我还有用于Hive运行的jdbc驱动程序，以便我可以进行远程jdbc调用。现在，我添加了一个Hive用户定义函数(UDF)。它在CLI中运行良好……我什至通过.hiverc文件自动加载jar和相关函数。但是，我无法使用配置单元jdbc驱动程序让它工作。我以为它也会使用.hiverc文件(默认情况下，位于/usr/lib/hive/bin/)，但它似乎不起作用。我还尝试通过“添加jar”SQL命令添加它作为第一件事，但无论我将jar文件放在哪里，我都会在hive.log中收到错误消息，指出找不到该文件。有人知道怎么做吗？我正在使用ClouderaDi

Hive amp connection section ConnectionFactory jdbc hadoop hdfs

java - Spark on yarn jar 上传问题

我正在尝试使用sparkoveryarn(CentOS上的ClouderaHadoop5.2)运行一个简单的Map/Reducejava程序。我已经尝试了这两种不同的方式。第一种方式如下:YARN_CONF_DIR=/usr/lib/hadoop-yarn/etc/hadoop/;/var/tmp/spark/spark-1.4.0-bin-hadoop2.4/bin/spark-submit--classMRContainer--masteryarn-cluster--jars/var/tmp/spark/spark-1.4.0-bin-hadoop2.4/lib/spark-ass

Spark java SparkSubmit hadoop mapreduce apache-spark

198 199 200201202 203 204