hadoop-mapreduce

hadoop - 插入 Hive 表时如何从 HDFS 中选择动态文件名

我有一个Hive表。现在我需要编写一个工作流程，每天工作都会在某个位置搜索文件-/data/data_YYYY-mm-dd.csvlike/data/data_2015-07-07.csv/data/data_2015-07-08.csv...因此每天工作流都会自动选择文件名并将数据加载到Hive表(MyTable)中。我正在编写如下加载脚本-在路径中加载数据“/data/${filepath}”覆盖到表MyTable。现在，在运行与普通配置单元作业相同的同时，我可以将文件路径设置为data_2015-07-07.csv，但如何在Oozie协调器中执行此操作，以便它自动选择名称为日期的

中选 hadoop gt lt 34 hive oozie oozie-coordinator

hadoop - Hbase MuleSoft Cloudhub 连接

我必须将Cloudhub连接到Hbase。我尝试过社区版HBase连接器，但没有成功。然后我尝试使用Java代码，但再次失败。从HBase团队，他们只提供了主IP(10.99.X.X)和端口(2181)和用户名(hadoop)。我尝试过以下选项:通过Java代码:publicObjecttransformMessage(MuleMessagemessage,StringoutputEncoding)throwsTransformerException{尝试{Configurationconf=HBaseConfiguration.create();//conf.set("hbase.r

Cloudhub MuleSoft 34 logger info hadoop mule hbase

hadoop - Oozie 仅在指定时间范围内运行作业

我需要从RDBMS系统中读取600TB的数据，而且我必须在从午夜12点到早上7点的特定时间范围内执行此操作。由于无法在一天内摄取全部数据，因此需要分批执行。oozie是否可以在早上7点之前终止作业并在第二天重新启动失败的作业。最佳答案 Oozie好像没有这个功能。我会尝试使用oozie-cli和cron终止并开始工作。关于hadoop-Oozie仅在指定时间范围内运行作业，我们在StackOverflow上找到一个类似的问题： https://stacko

hadoop Oozie section stackoverflow questions sqoop

hadoop - 在 reducer 函数中选择 max key

这个问题在这里已经有了答案:Findingbiggestvalueforkey(1个回答)关闭7年前。我对reducer的理解是，它从sort和shuffle的中间o/p文件中处理一对键值对。我不知道如何访问具有排序和混洗键值对的中间文件。一旦无法访问中间文件，就无法在reducer模块中编写代码来选择最大的key。我不知道如何对一次接收一对K、V的reducer进行编程，以仅将最大的键及其对应的值打印到最终输出文件。假设这是来自映射器的中间文件，它也经过了排序和混洗..1个2是4这是什么我希望reducer在最终输出文件中只打印“4thiswhat”。由于reducer的内存中没有整

中选 reducer section notice hadoop mapreduce

hadoop - 使用水槽的kafka channel 中的动态主题

是否有可能有一个带有动态主题的kafkachannel-比如可以在其中指定主题header的kafka接收器，或者可以在其中使用header中的值的HDFS接收器？我知道我可以多路复用以使用多个channel(具有一堆channel配置)，但这是不可取的，因为我希望有一个动态HDFS接收器，而不是每个kafkachannel都有一个HDFS接收器。最佳答案我的理解是FlumeKafkachannel只能映射到单个主题，因为它同时生成和使用该特定主题的日志。查看Flume1.6.0的KafkaChannel.java中的代码，我可

水槽 channel section kafka hadoop flume flume-ng apache-kafka

hadoop - 清洁 AWS EMR 以允许重用

我有几项任务要在不共享数据的AWSEMR上执行，我想使用同一个EMR一个接一个地执行它们。有没有办法将正在运行的EMR清理回其初始状态(删除配置单元表，清理所有HDFS文件等)避免数据冲突？我想重用EMR有几个原因:创建新的EMR可能需要5-10分钟。我的任务是相对较短的时间，20-25分钟。一旦创建了EMR，您就已经为整个小时付费了。最佳答案我们没有找到“快速而干净”的API来实现此行为。相反，我们巩固了一种简单的工作方法，以保证我们可以清理所有数据。我们使用特定的数据库而不是默认的数据库。我们将所有内部数据文件放在HDFS中

重用 hadoop section EMR li amazon-web-services

hadoop - 基于文件大小的 block 和映射器

假设我有3个文件要存储在HDFS中并希望通过MapReduce读取它们。因此，在HDFS位置/omega/usecase/input中有3个文件，分别是file1.txt、file2.txt、file3.txt这3个文件的大小分别是file1.txt(64MB),file2.txt(32MB),file3.txt(1MB)还假设默认block大小为64MB，复制因子为3我想知道这3个文件将有多少个block，如果我编写一个MapReduce程序来读取输入目录/omega/usecase/input，将执行多少个映射器最佳答案 HD

射器 hadoop section code mapreduce hdfs

json - 将数据加载到 hadoop 的推荐格式，用于简单的 map reduce

目前，我正在将大量数据从s3加载到我们的redshift集群中(每秒10k行左右？)。这成为尝试对数据运行任何查询的问题，因为即使在尝试汇总几个小时的数据时，我们也会遇到内存不足错误。我想做的是对数据运行mapreduce作业，然后只加载聚合。我知道这应该是一项相当容易的任务，但我是hadoop的新手，而且我有点卡在第一步中。设置EMR集群(完成)将数据加载到HDFS(我认为这是我应该做的)目前所有数据都被加载到S3gzippedJSON文件中(使其易于加载到redshift中)。我必须更改文件格式才能将其放入hadoop中吗？每个S3文件都采用类似于此形式的内容:{"timestam

hadoop reduce 34 section JSON amazon-s3 emr

java - 当运行 hadoop fs -ls 结果是 "ls: Call From java.net.UnknownHostException: ubuntu: ubuntu: unknown error to localhost:9000...."

ls:CallFromjava.net.UnknownHostException:ubuntu:ubuntu:unknownerrortolocalhost:9000failedonconnectionexception:java.net.ConnectException:Connectionrefused;Formoredetailssee:http://wiki.apache.org/hadoop/ConnectionRefused我的hadoop配置是这样的。/etc/主机127.0.0.1localhost#ThefollowinglinesaredesirableforIPv

ubuntu UnknownHostException code gt lt java hadoop

java - 如何从 Mapreduce 作业查询存储在 hdfs 中的嵌入式数据库？

我正在尝试从HadoopMapReduce映射器查询GeoLite数据库以解析IP地址的国家/地区。我尝试了两种方法:1.使用File仅适用于本地文件系统，我收到一个文件未找到异常Filedatabase=newFile("hdfs://localhost:9000/input/GeoLite2-City.mmdb");//2.使用流，但在运行时出现此错误Error:JavaHeapSpacePathpt=newPath("hdfs://localhost:9000/input/GeoLite2-City.mmdb");FileSystemfs=FileSystem.get(newCo

Mapreduce java section DatabaseReader code hadoop geolocation hdfs

156 157 158159160 161 162