Hadoop2

hadoop - Oozie 仅在指定时间范围内运行作业

我需要从RDBMS系统中读取600TB的数据，而且我必须在从午夜12点到早上7点的特定时间范围内执行此操作。由于无法在一天内摄取全部数据，因此需要分批执行。oozie是否可以在早上7点之前终止作业并在第二天重新启动失败的作业。最佳答案 Oozie好像没有这个功能。我会尝试使用oozie-cli和cron终止并开始工作。关于hadoop-Oozie仅在指定时间范围内运行作业，我们在StackOverflow上找到一个类似的问题： https://stacko

hadoop - 在 reducer 函数中选择 max key

这个问题在这里已经有了答案:Findingbiggestvalueforkey(1个回答)关闭7年前。我对reducer的理解是，它从sort和shuffle的中间o/p文件中处理一对键值对。我不知道如何访问具有排序和混洗键值对的中间文件。一旦无法访问中间文件，就无法在reducer模块中编写代码来选择最大的key。我不知道如何对一次接收一对K、V的reducer进行编程，以仅将最大的键及其对应的值打印到最终输出文件。假设这是来自映射器的中间文件，它也经过了排序和混洗..1个2是4这是什么我希望reducer在最终输出文件中只打印“4thiswhat”。由于reducer的内存中没有整

中选 reducer section notice hadoop mapreduce

hadoop - 使用水槽的kafka channel 中的动态主题

是否有可能有一个带有动态主题的kafkachannel-比如可以在其中指定主题header的kafka接收器，或者可以在其中使用header中的值的HDFS接收器？我知道我可以多路复用以使用多个channel(具有一堆channel配置)，但这是不可取的，因为我希望有一个动态HDFS接收器，而不是每个kafkachannel都有一个HDFS接收器。最佳答案我的理解是FlumeKafkachannel只能映射到单个主题，因为它同时生成和使用该特定主题的日志。查看Flume1.6.0的KafkaChannel.java中的代码，我可

水槽 channel section kafka hadoop flume flume-ng apache-kafka

hadoop - 清洁 AWS EMR 以允许重用

我有几项任务要在不共享数据的AWSEMR上执行，我想使用同一个EMR一个接一个地执行它们。有没有办法将正在运行的EMR清理回其初始状态(删除配置单元表，清理所有HDFS文件等)避免数据冲突？我想重用EMR有几个原因:创建新的EMR可能需要5-10分钟。我的任务是相对较短的时间，20-25分钟。一旦创建了EMR，您就已经为整个小时付费了。最佳答案我们没有找到“快速而干净”的API来实现此行为。相反，我们巩固了一种简单的工作方法，以保证我们可以清理所有数据。我们使用特定的数据库而不是默认的数据库。我们将所有内部数据文件放在HDFS中

重用 hadoop section EMR li amazon-web-services

java - NameNode没有启动start-all.sh

我正尝试在我的机器上将Hadoop作为单节点集群运行。我完成了安装步骤，所以Hadoop已经在我的系统上了。但是，当我运行start-all.sh并随后检查jps是否正在运行NameNode时，这就是我得到的结果:20053Jps19944NodeManager我已经尝试先运行start-dfs.sh，然后运行start-yarn.sh，但这没有用。我还尝试用格式化NameNodehadoopnamenode-format但我做不到，我得到了错误:15/07/1516:34:19WARNnamenode.NameNode:Encounteredexceptionduringform

start-all NameNode hadoop java ubuntu hdfs hadoop2

hadoop - 基于文件大小的 block 和映射器

假设我有3个文件要存储在HDFS中并希望通过MapReduce读取它们。因此，在HDFS位置/omega/usecase/input中有3个文件，分别是file1.txt、file2.txt、file3.txt这3个文件的大小分别是file1.txt(64MB),file2.txt(32MB),file3.txt(1MB)还假设默认block大小为64MB，复制因子为3我想知道这3个文件将有多少个block，如果我编写一个MapReduce程序来读取输入目录/omega/usecase/input，将执行多少个映射器最佳答案 HD

射器 hadoop section code mapreduce hdfs

json - 将数据加载到 hadoop 的推荐格式，用于简单的 map reduce

目前，我正在将大量数据从s3加载到我们的redshift集群中(每秒10k行左右？)。这成为尝试对数据运行任何查询的问题，因为即使在尝试汇总几个小时的数据时，我们也会遇到内存不足错误。我想做的是对数据运行mapreduce作业，然后只加载聚合。我知道这应该是一项相当容易的任务，但我是hadoop的新手，而且我有点卡在第一步中。设置EMR集群(完成)将数据加载到HDFS(我认为这是我应该做的)目前所有数据都被加载到S3gzippedJSON文件中(使其易于加载到redshift中)。我必须更改文件格式才能将其放入hadoop中吗？每个S3文件都采用类似于此形式的内容:{"timestam

hadoop reduce 34 section JSON amazon-s3 emr

java - 当运行 hadoop fs -ls 结果是 "ls: Call From java.net.UnknownHostException: ubuntu: ubuntu: unknown error to localhost:9000...."

ls:CallFromjava.net.UnknownHostException:ubuntu:ubuntu:unknownerrortolocalhost:9000failedonconnectionexception:java.net.ConnectException:Connectionrefused;Formoredetailssee:http://wiki.apache.org/hadoop/ConnectionRefused我的hadoop配置是这样的。/etc/主机127.0.0.1localhost#ThefollowinglinesaredesirableforIPv

ubuntu UnknownHostException code gt lt java hadoop

hadoop - 从 Pig UDF Java 类中的分布式缓存访问文件，Amazon EMR

我正在尝试访问UDF中的文件(sample.txt)。我想将该文件放在分布式缓存中并从那里使用它。我正在使用亚马逊EMR来运行Pig作业。我在创建集群时使用EMRbootstrap-action将文件(sample.txt)复制到HDFS。bootstrap.sh(将文件从s3复制到hdfs)hadoopfs-copyToLocals3n://s3_path/sample.txt/mnt/sample.txtUsingSample.java(使用sample.txt的UDF)publicclassUsingSampleextendsEvalFunc{publicStringuseSam

hadoop Amazon String sample code apache-pig amazon-emr distributed-cache udf

Hadoop 作业刚刚结束

我在使用Hadoop时遇到了一个相当奇怪的问题。我写了一个MR作业，它就这样结束了，没有执行map或reduce代码。它生成输出文件夹，但该文件夹是空的。我认为没有理由出现这种行为。我什至用默认的Mapper和Reducer来尝试这个，只是为了找到问题，但我没有发现异常，没有错误，作业刚刚完成并生成一个空文件夹。这是最简单的驱动程序:Configurationconf=newConfiguration();//DistributedCache.addCacheFile(newURI(firstPivotsInput),conf);JobpivotSelection=newJob(con

Hadoop 作业 pivotSelection code section mapreduce

150 151 152153154 155 156