uber-jar_草庐IT

java - hadoop streaming，使用-libjars 包含jar 文件

我正在学习hadoop，并编写了map/reduce步骤来处理我拥有的一些avro文件。我认为我遇到的问题可能是由于我的hadoop安装所致。我正在尝试在我的笔记本电脑上以独立模式进行测试，而不是在分布式集群上。这是我运行作业的bash调用:#!/bin/bashreducer=/home/hduser/python-hadoop/test/reducer.pymapper=/home/hduser/python-hadoop/test/mapper.pyavrohdjar=/home/hduser/python-hadoop/test/avro-mapred-1.7.4-hadoop

streaming libjars hadoop gt lt java python hadoop-streaming

hadoop - 缺少 Hive 执行 Jar Hadoop

我知道这是一个重复的问题，但是thislink在stackoverflow上并没有解决我的问题。当我尝试运行Hive时出现以下错误:Pawandeep-Singh-2:apache-hive-1.1.1-binPawandeepSingh1$bin/hivereadlink:illegaloption--fusage:readlink[-n][file...]MissingHiveExecutionJar:/usr/local/Cellar/hive/apache-hive-1.1.1-bin/lib/hive-exec-*.jar我正在使用MacOSXYosemite。任何人都可以告

hadoop hive section stackoverflow installation bigdata

java - hadoop - Hadoop jar 输入路径问题

我遇到的问题是hadoopjar命令需要输入路径，但我的MapReduce作业从数据库获取输入，因此不需要/没有输入目录。我已将JobConf输入格式设置为DBInputFormat，但在干扰我的工作时如何表示这一点？//Hereisthecommandhadoopjar我有一个输出文件夹，但不需要输入文件夹。有没有办法规避这个？我是否需要编写第二个程序来将数据库数据提取到一个文件夹中，然后在MapReduce作业中使用它？最佳答案 hadoopjar命令不需要命令行参数，可能主类除外。map/reduce作业的命令行参数将由程序

hadoop section strong java postgresql mapreduce

java - 使用 Apache Hadoop JAR 文件或特定于供应商的文件？

我正在为Hadoop创建一个应用程序，它应该在不同供应商提供的所有Hadoop发行版上运行，例如:Cloudera、MapR、Hortonworks、Pivotal等。我的应用程序将部署在WebLogic、JBoss等应用程序服务器上，或者也可以部署在tomcat上。所以我的问题是:-假设所有这些供应商的某些版本使用相同的底层Hadoop版本，比如Hadoop2.0，那么我应该使用这些供应商提供的JAR文件还是使用Apachehadoop提供的JAR文件？我的意思是JAR文件与Apachehadoop具有相同的类，但它们的名称类似于blablaCDH5.2blabla.jar，所以

定于 Apache section Hadoop 的 java

hadoop - 使用 jar 选项将作业提交到不同的公平调度程序池

我是Hadoop的新手，尝试在运行时使用hadoopjar选项将同一用户的不同作业提交到公平调度程序的不同池。基于http://osdir.com/ml/hive-user-hadoop-apache/2009-03/msg00162.html中的解决方案，我在运行作业时使用了-D选项。具体来说，我运行了命令:bin/hadoopjarhadoop-examples-1.0.4.jargrepinputoutput'dfs[a-z.]+'-Dpool.name=sample_pool我可以在作业跟踪器调度程序页面中看到池，但作业仍提交给用户池。我发现jar选项不支持-D选项:http:

交到 hadoop code 跟踪器 mapreduce

hadoop - 关于 Pig 作业 Jar 文件

我正在使用嵌入式Pig来实现图形算法。它在本地模式下工作正常。但是在一个完全分布式的Hadoop集群中，总是有如下错误信息:(请看最后几行)2012-11-2322:00:00,651[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler-creatingjarfileJob4116346741117365374.jar2012-11-2322:00:09,418[main]INFOorg.apache.pig.backend.hadoop.executionen

hadoop Pig apache executionengine apache-pig

hadoop - HBase批量加载MapReduce HFile异常(netty jar)

我正在尝试运行一个简单的MapReduce进程来编写HFile，以便稍后导入到HBase表中。提交作业时:hbasecom.pcoa.Driver/test/bulkpcoa我收到以下异常，表明netty-3.6.6.Final.jar在HDFS中不存在(但它确实存在于此处)。-rw-r--r--+1mbeeningflprod1206119Sep1818:25/dedge1/hadoop/hbase-0.96.1.1-hadoop2/lib/netty-3.6.6.Final.jar恐怕我不明白如何解决这个配置(？)错误。谁能给我一些建议？异常(exception)情况:Except

MapReduce hadoop apache java hbase netty filenotfoundexception hfile

java - 如何在不在 libjars 中编写完整类路径的情况下在 scalding/hadoop 作业中运行 slim jar

有没有一种方法可以在不使用libjars和明确以逗号分隔编写每个jar的情况下运行需要类路径的scalding作业。我想把我所有的jar放在一个库中，而不是只写-libjars=./lib/*而不是所有的jar。有经典的方法吗？？使用烫金版scalding-core_2.100.8.5hadoop版本2.0.0-cdh4.5.0附言我正在使用maven来打包jar和lib 最佳答案您应该创建一个“fatjar”，其中包含您将使用libjars添加的依赖项以及主类。可以在一个jar中查看带有Scalding和依赖项的sbt项目的具体

中运何在 section scalding jar java hadoop maven-3

hadoop - 如何以另一个用户身份运行 "hadoop jar"？

hadoopjar使用当前登录用户的名称。有没有办法在不添加新系统用户的情况下更改此设置？最佳答案有一个功能叫做SecureImpersonation，它允许一个用户代表另一个用户提交(尽管该用户必须存在)。如果您以hadoopsuper用户身份运行，只需设置环境变量$HADOOP_PROXY_USER即可。如果您想模拟一个不存在的用户，您必须执行上述操作，然后实现您自己的AuthenticationHandler。如果您不必模拟太多用户，我发现最简单的方法是在名称节点上创建这些用户并在我的脚本中使用安全模拟。

hadoop 何以 section code jar

hadoop - 在 Amazon EMR 上运行带有输入参数的自定义 jar 文件

所以，我正在尝试运行WordCountAmazonEMR上的hadoop应用程序。我有自己的数据文件，已上传到abcbucket。我还在abcbucket下添加了wordcount.jar文件。谁能告诉我当我们创建集群时，我们如何提供数据文件的路径以及我们是否还需要提供输出目录路径，如果是那么我如何提供输出目录路径？最佳答案数据文件作为参数传入Jar，数据文件位于S3存储桶中。输出也是一个s3存储桶，在这种情况下，您可以使用相同的存储桶，只需在存储桶中有一个目录/output并将所有输出发送到那里。https://blog.sa

自定 hadoop section running-hadoop-mapreduce-jobs-on-amazon-web-services amazon-ec2 amazon-s3 amazon-emr