草庐IT

hadoop-release

全部标签

hadoop - 在 Map reduce 中每次修改代码都需要创建一个 jar 文件

我正在Hadoop单节点集群中运行一个程序(MapReduce)。经常对MapReduce逻辑进行一些修改。我正在使用EclipseIDE。每次修改逻辑后,我都会创建一个jar文件来检查Hadoop中的Mapreduce作业。每次修改MapReduce逻辑后都创建一个jar文件有点繁琐。有没有更简单的方法来在每次进行更改时创建jar文件?请指教。 最佳答案 不清楚是您必须制作jar文件这一事实还是制作jar的过程似乎太困难的问题。首先,您必须制作一个jar文件才能将作业提交到Hadoop。没有办法解决这个问题。其次,为了简化创建ja

hadoop - HBase MapReduce 作业加载配置(hbase-site.xml),但实际上并没有

我正在编写一个从(a)HBase表读取的MapReduce作业。除了Configuration类之外,几乎所有的东西都按预期工作。所以我这样做了,Configurationconfig=HBaseConfiguration.create();GenericOptionsParserparser=newGenericOptionsParser(config,args);//Thisshouldworkbutisnotworking.config.addResource(newPath(parser.getCommandLine().getOptionValue("conf",DEFAUL

hadoop - 为什么hadoop格式给出 "java.net.UnknownHostException"异常

正在学习hadoop,尝试按照网上的资料搭建环境。我已经配置了ssh(sshlocalhost不需要密码),配置了“core-site.xml”、“hdfs-site.xml”、“mapred-site.xml”和“yarn-site.xml”但是当我尝试“hadoopnamenode-format”时,它给出了“java.net.UnknownHostException”和host=java.net.UnknownHostException:我尝试搜索联机帮助,但几乎都是:更改etc/hosts中的网络配置。但是我使用的是hadoop2.4,没有这样的文件夹。有什么建议吗?谢谢!

hadoop - hive-hbase 集成错误

我使用的是hive版本0.12.0,hadoop版本2.4.0和hbase版本0.98.3我在hbase中创建了一个表信息,用一行数据填充它,为hive提供访问权限(使用外部表)运行查询时selectcount(*)frominfo;我明白了TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.reducers.bytes.per.reducer=In

hadoop - 使用正则表达式的配置单元查询

您好,我正在寻找一种查询配置单元表(user_acc_detl)的方法其中一列(ACC_DETAILS)数据如下所示,COUNTRY[0]_unitedstaes~DATE[0]_6/10/2014~AMOUNT[0]_200~ID[0]_20140509065052159324~COUNTRY[1]_unitedkingdom~DATE[1]_6/17/2014~AMOUNT[1]_125~ID[1]_20140516075156389761~COUNTRY[2]_Canada~DATE[2]_6/26/2014~AMOUNT[2]_200~ID[2]_201405150940134

hadoop - 将参数从 coordinator.xml 传递到 workflow.xml oozie

我有一个要求,我需要在oozie中获取从协调员到工作流的日期。为此,我开发了示例协调器和工作流程,如下所示。但是,启动协调器作业后,所有工作流作业都失败,错误代码为E0701。表示xml解析错误。我很努力地尝试了,我哪里做错了?我找不到问题?请帮忙。workflow.xml${jobTracker}${nameNode}Actionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]协调器.xml${wf_application_path}DATE${coord:formatTime(coord:nominalTime(

hadoop - 在 Amazon S3 中创建由 Avro 文件支持的 Hive 表时出现问题

我一直在尝试在S3中创建一个由Avro文件支持的Hive表。最初,我认为这可能相对简单,但我遇到了以下错误。这是创建表的命令:setfs.s3.awsAccessKeyId=ACCESS_KEY_ID;setfs.s3.awsSecretAccessKey=SECRET_ACCESS_KEY;usesome_database;CREATEEXTERNALTABLEexperiment_with_s3_backed_dataROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'WITHSERDEPROPERTIES('av

hadoop - 设置所需号码的映射器

我浏览了很多关于stackoverflow和apachewiki的博客,以了解映射器在Hadoop中的设置方式。我还经历了[hadoop-howtotalmappersaredetermined[这个帖子。有人说它基于InputFormat,而一些帖子说它基于输入文件ID分成的block数。一些我对默认设置感到困惑的地方。当我运行一个wordcount示例时,我看到映射器低至2。设置中到底发生了什么?还有这篇文章[http://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-map

logging - cdh4 hadoop 中作业的详细日志在哪里?

我只是在hdfs中找到jobhistory/home/mps/cdh/users/history/done_intermediate/mps/job_1405497023620_0009-1405505656182-mps-simjoin%2D1.0.jar-1405505683781-0-0-FAILED-default.jhist但是这个工作历史信息远非像这样的详细信息:{"type":"TASK_FAILED","event":{"org.apache.hadoop.mapreduce.jobhistory.TaskFailed":{"taskid":"task_14054970

hadoop - Hive - 按问题分组

我在Hive中基于2个字段(A和B)进行分组。但它并没有为A和B的每个组合显示一个聚合值。它显示多个值,如AB1一个B4等等是不是因为reducer的数量多于1个,如何避免这个问题? 最佳答案 最近我遇到了类似的问题,在我的HQL中,我使用insertoverwritedirectory'$HQL_OUT_PATH'来覆盖输出。但它似乎不稳定导致重复项。你可能清理HQL之前的输出路径,看输出结果是否正确。 关于hadoop-Hive-按问题分组,我们在StackOverflow上找到一个