草庐IT

作业组

全部标签

hadoop - Hadoop中使用的jar文件重新编译后是否需要停止所有作业

我的问题是假设我正在对MapReduce过程中使用的一个jar文件进行更改,如果我想重新编译这个jar并使更新后的jar工作,我是否必须停止所有hadoop首先服务,然后重新编译并重新启动所有服务?如果是,请解释。 最佳答案 不,我经常这样做。只需重新编译jar并运行新作业即可。 关于hadoop-Hadoop中使用的jar文件重新编译后是否需要停止所有作业,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.c

java - 有没有办法强制 hadoop 作业查看下划线文件夹?

我必须处理文件夹中以“_”(下划线)开头的一堆文件。有没有办法强制hadoop查看这些文件夹?我需要编写自己的FileInputFormat吗? 最佳答案 最简单的方法可能是使用例如FileSystem.globStatus自行构建输入文件列表,然后使用FileInputFormat.addInputPath手动将它们添加到作业中。FileSystem.globStatus默认不过滤隐藏文件。 关于java-有没有办法强制hadoop作业查看下划线文件夹?,我们在StackOverflo

java - 如何将 Set<List<Set<Integer>>> 传递给 hadoop map reduce 作业

我需要向map/reduce(hadoop实现)传递一个类型的参数Set>>对于hadoop类JobConf,我可以使用setInt、setFlot、setString、ecc,但如果我想设置“一个集合”或一个列表,是否可行?怎么办? 最佳答案 我没有找到任何通过“setter”方法来做到这一点的方法。但是,您可以将此Collection写入文件,然后将此文件添加到DistributedCache并从映射器/缩减器的配置中加载它。 关于java-如何将Set>>传递给hadoopmapr

java - 如何为从配置单元 jdbc 查询启动的 mr 作业指定额外的 jar?

我正在尝试通过使用avro存储格式的jdbc查询一个配置单元表,但我在查询产生的mr作业中收到一个类未找到错误。奇怪的是,我可以从配置单元shell运行查询而不会发生异常。我可以运行一个不生成mapreduce作业的查询(select*fromtablelimit10)并且它工作正常。2014-03-1210:23:34,040WARN[main]org.apache.hadoop.mapred.YarnChild:Exceptionrunningchild:java.io.IOException:java.lang.reflect.InvocationTargetExceptiona

java - Eclipse 如何运行 map reduce 作业?

我关注了一篇文章,并设法在eclipse中运行了一个mapreduce程序。下面是pom.xml文件4.0.0virtusafazlan0.0.1-SNAPSHOTjarfazlanhttp://maven.apache.orgUTF-8junitjunit3.8.1testorg.apache.hadoophadoop-client2.2.0Maven安装必要的jar,当我将程序作为java应用程序运行时,输出按预期保存。据我所知,Hadoop可以在3种模式下运行。1)Singlenode2)psuedo-distributedmode3)distributedmode我假设ecli

tomcat - 在 Hadoop 中实现作业结束通知监听器

我正在尝试在工作完成后收到通知。为此,我使用以下链接作为引用。我无法让它工作。我在互联网上找不到太多关于它的东西。我正在使用tomcat作为在我使用servlet的地方建立通知url点的方法。http://hadoopi.wordpress.com/2013/09/18/hadoop-get-a-callback-on-mapreduce-job-completion/根据我的说法,这是servlet显然不应该工作,因为我没有直接从我应该提交参数的另一个页面调用它。在这里,我需要一个监听器来获取来自hadoop的调用,然后获取将提交给servlet的jobId和jobStatus,但我

hadoop - Sqoop 运行到本地作业运行器模式

当我运行sqoop时,我不确定它为什么会进入本地作业运行器模式,然后说我为LocalJobRunner提供了无效的jobtrackerurl。谁能告诉我这是怎么回事?$bin/sqoopimport-jtmyjobtracker:50070--connectjdbc:mysql://mydbhost.com/mydata--usernamefoo--passwordbar--as-parquetfile--tablecampaigns--target-dirhdfs://myhdfs:8020/user/myself/campaigns14/08/2021:04:50INFOsqoop

java - hadoop map reduce作业没有输出

我在Netbeans中编写MapReduce作业并生成(也在NB中)一个jar文件。当我尝试在hadoop(版本1.2.1)中执行此作业时,我执行此命令:$hadoopjarjob.jarorg.job.mainClass/home/user/in.txt/home/user/outdir此命令不显示任何错误,但不创建outdir、outfiles、...这是我的工作代码:映射器publicclassMapperextendsMapReduceBaseimplementsorg.apache.hadoop.mapred.Mapper{privatefinalIntWritableone

java - 将数据写入 MySQL 数据库时 map reduce 作业中的类转换异常

我正在尝试使用mapreduce作业将数据加载到mysql数据库中,但是我遇到了类转换异常错误,这是我使用的过程:我首先创建一个实现了Writable和DBWritable接口(interface)的DBOutputWritable类。然后我使用我的reduce作业将数据写入数据库,但是当我运行该作业时,它失败了,提示有错误:java.lang.ClassCastException:com.amalwa.hadoop.DataBaseLoadMapReduce.DBOutputWritablecannotbecasttoorg.apache.hadoop.mapreduce.lib.d

r - 在 R 中运行 map reduce 作业时出错

我刚刚开始集成RHadoop。它是与Hadoop集成的R-studio服务器,但在运行map-reduce作业时出现错误。当我运行以下代码行时。library(rmr2)a堆栈跟踪:15/03/2421:13:47INFOConfiguration.deprecation:mapred.reduce.tasksisdeprecated.Instead,usemapreduce.job.reducespackageJobJar:[][/usr/lib/hadoop-mapreduce/hadoop-streaming-2.5.0-cdh5.2.0.jar]/tmp/streamjob47