Import

java - 尼菲 :can't import getFileSystem in customProcessor?

我想使用getFileSytem()来提取任何比我们拥有的时间戳更新但我无法导入它的文件(我的意思是getFileSytem())我有这段代码:finalFileSystemhdfs=getFileSystem();finalbooleanrecursive=context.getProperty(RECURSE_SUBDIRS).asBoolean();finalSetstatuses;try{finalPathrootPath=newPath(directory);statuses=getStatuses(rootPath,recursive,hdfs,createPathFilt

customProcessor getFileSystem gt lt artifactId java hadoop apache-nifi

java - 通过 MapReduce 代码平均工资

谁能帮我找出为什么在运行我的MapReduce代码后我没有得到平均工资。问题:计算正式员工和契约(Contract)员工的平均工资示例输入:1用户1永久1002user2契约(Contract)5003用户3永久2004user4合约300预期输出:永久285契约(Contract)187我得到的输出:永久100永久200合约500契约(Contract)300运行作业:$hadoopjarpartition.jarcom.hadoop.PartitionExample输入/partition_example.txt输出packagecom.hadoop;importjava.io.I

MapReduce java IntWritable hadoop import

hadoop - 将kafka的Spark批量流式传输到单个文件中

我正在使用批处理流(maxRatePerPartition10.000)从Kafka流式传输数据。因此，在每批处理中，我处理10.000条kafka消息。在这个批处理运行中，我通过从rdd中创建一个数据帧来处理每条消息。处理后，我使用以下方法将每个处理过的记录保存到同一个文件:dataFrame.write.mode(SaveMode.append)。因此它将所有消息附加到同一个文件。只要它在一个批处理运行中运行就可以。但是在执行下一个批处理运行(处理下10.000条消息)后，它会为下一个10.000条消息创建一个新文件。现在的问题是:每个文件(block)保留文件系统的50mb，但只

流式 hadoop section import SQLContext apache-spark apache-kafka spark-streaming

hadoop - hadoop中搜索的mapper程序详解

我是hadoop的新手，所以我对程序的理解有点困难。那么，是否有人可以帮助我理解这个映射器程序？packageSearchTxn;importjava.io.IOException;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.NullWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassMyMapextendsMapper{publicvoidmap(LongWrit

hadoop 中搜 section import

hadoop - Iterable 在 mapreduce Reduce Task 中不起作用

大家好，我是hadoop的新手，我正在努力解决与reducer相关的问题。我有一个简单的wordcount程序，它没有返回预期的输出预期输出:这1哈多普2输出:这1hadoop1hadoop1wordcount程序代码packagein.edureka.mapreduce;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;impor

mapreduce Iterable hadoop IntWritable import

scala - 使用 spark 仅列出文件夹中的文件名

我必须列出文件夹中的所有文件，并根据文件名将文件保存在不同的文件夹中，使用spark.我写了下面的代码但出现错误splitisnotamemberoforg.hadoop,whileusingoperatorsplit.下面是我的代码，任何人都可以建议我如何消除或克服这个错误。importorg.apache.spark.sql.SparkSessionimportscala.io.Sourceimportorg.apache.hadoop.conf.Configurationimportscala.io.Sourceimportorg.apache.spark.sql.functio

scala spark import val apache apache-spark hadoop

java - 在 Hadoop 中解析 XML 文件

您好，我已经在VMware上以伪分布式模式安装了hadoop-0.20.2-cdh3u5。我想使用这个已建立的环境来解析XML文件。我可以通过编写map/reduce代码，然后将它们作为.jar文件导出到集群上，然后在集群上执行它们来实现。我无法弄清楚的是如何将此的java解析代码(使用SAXON解析器)放入map/reduce类中，然后在输出中生成csv文件。所以我有这个解析代码:(在这里使用SAXon解析器)importjava.io.FileNotFoundException;importjava.io.FileReader;importjava.io.IOException;i

Hadoop java section import xml-parsing mapreduce

java - 如何在 hadoop 中将 reducer 输出作为 xml 格式

我创建了一个自定义的xmloutputformat类，将reducer的输出转换为xml格式。这里的问题是代码执行成功但最终输出是普通格式而不是XML格式。谁能帮帮我……？packagedd;importjava.io.IOException;importjava.net.URI;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;im

何在 reducer import hadoop apache java mapreduce

java - 控制不会进入 hadoop 中的 reducer

我在hadoop中写了一个自定义的输入格式和数据类型，它可以读取图像，将它存储到RGB数组中。但是当我在我的map和reduce函数中实现时，控制不会转到reducer函数。importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*;importorg.apache.hadoop.mapreduce.lib

reducer hadoop import section java mapreduce

hadoop - 遍历 reducer 中的 IntWritable 数组给出 "Can only iterate over an array or an instance of java.lang.Iterable"

我已经编写了一个Driver、Mapper和Reducer程序来尝试复合键(输入数据集中的多个字段)。数据集如下所示:国家、州、县、人口(百万)美国，加利福尼亚州，阿拉米达，12美国，加利福尼亚州，圣克拉拉，14美国，亚利桑那州，阿巴吉德，14我正在尝试找出国家/地区的总人口。因此，reducer应该聚合两个字段Country+State并显示人口。当我在步骤(在reducer代码中)遍历population时for(IntWritablei:values)我收到编译器错误“Canonlyiterateoveranarrayoraninstanceofjava.lang.Iterabl

IntWritable amp import apache hadoop mapreduce

111 112 113114115 116 117