mapReduce_草庐IT

java - 在 Mapper 中检索当前行的文件名

我使用的是Hadoop2.6.4版。我正在编写一个MapReduce作业，它将采用3个参数，即-Keyword，输入文件和输出文件的路径。我理想的输出应该是所有包含关键字的文件的名称。简单的逻辑是遍历文本中的每一行并将其与我们的关键字匹配。如果它返回true打印文件名。经过广泛的谷歌搜索后，我找到了3个获取文件名的选项Context.getConfiguration().get("map.input.file")Context.getConfiguration().get("mapreduce.map.input.file")这两种方法都返回了一个值为“null”的字符串，即它们在我的

前行 Mapper code hadoop apache java mapreduce bigdata

java - Accumulo MapReduce 作业因 java.io.EOFException 而失败，使用 AccumuloRowInputFormat

我所有的映射器都失败了，除了下面的异常(exception)。为了简洁起见，我只展示了最后一次失败。为什么会发生这种情况，我该如何解决？16/09/2117:01:57INFOmapred.JobClient:TaskId:attempt_201609151451_0044_m_000002_2,Status:FAILEDjava.io.EOFExceptionatjava.io.DataInputStream.readFully(DataInputStream.java:197)atjava.io.DataInputStream.readUTF(DataInputStream.jav

AccumuloRowInputFormat java mapred JobClient hadoop hadoop2 accumulo

java - 链接两个作业时 hadoop.mapreduce.lib.input.FileInputFormat.getBlockIndex 中的 NullPointerException

我正在尝试构建倒排索引。我链接了两个作业。基本上，第一个作业解析输入并对其进行清理，并将结果存储在文件夹“output”中，该文件夹是第二个作业的输入文件夹。第二个工作应该实际构建倒排索引。当我刚找到第一份工作时，它工作得很好(至少，没有异常(exception))。我像这样链接两个作业:publicclassMain{publicstaticvoidmain(String[]args)throwsException{StringinputPath=args[0];StringoutputPath=args[1];StringstopWordsPath=args[2];Stringfi

NullPointerException FileInputFormat code job class java hadoop mapreduce

hadoop - Alluxio 错误 :java. lang.IllegalArgumentException:错误的 FS

我可以使用cloudera提供的示例jar在alluxio上运行wordcount，使用:sudo-uhdfshadoopjar/usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jarwordcount-libjars/home/nn1/alluxio-1.2.0/core/client/target/alluxio-core-client-1.2.0-jar-with-dependencies.jaralluxio://nn1:19998/wordcountalluxio://nn1:19998/wc1这是成功的。但是当我使用附加代码创建的

IllegalArgumentException Alluxio code hadoop DistributedFileSystem mapreduce hdfs cloudera-cdh

java - 如何在 Java 中为 Hadoop 作业的 ParquetOutputFormat 定义 Parquet 模式？

我在java中有一个Hadoop作业，它具有序列输出格式:job.setOutputFormatClass(SequenceFileOutputFormat.class);我想改用Parquet格式。我试图以天真的方式设置它:job.setOutputFormatClass(ParquetOutputFormat.class);ParquetOutputFormat.setOutputPath(job,output);ParquetOutputFormat.setCompression(job,CompressionCodecName.GZIP);ParquetOutputFormat

ParquetOutputFormat 何在 code section java hadoop mapreduce parquet

eclipse - 如何干净地卸载 Eclipse MapReduce 插件？

我正在尝试让用于hadoop开发的eclipse插件正常工作，我使用的是hadoop0.18.3。我在Eclipsev3.5.2(M20100211-1343)上安装了旧的MapReduce插件(http://www.alphaworks.ibm.com/tech/mapreducetools)，方法是将其复制到/Applications/eclipse/plugins并重新启动eclipse，但这没有用，我认为这是因为它是为旧版本的hadoop和eclipse(大约2007年)。然后我意识到hadoop发行版在contrib/eclipse-plugin下有一个jar-所以将其复制到

MapReduce 干净 eclipse section hadoop eclipse-plugin

hadoop - 远程执行 hadoop 作业时出现异常

我正在尝试在远程hadoop集群上执行Hadoop作业。下面是我的代码。Configurationconf=newConfiguration();conf.set("fs.default.name","hdfs://server:9000/");conf.set("hadoop.job.ugi","username");Jobjob=newJob(conf,"PercentilRanking");job.setJarByClass(PercentileDriver.class);job.setMapperClass(PercentileMapper.class);job.setRedu

时出 hadoop apache java mapreduce hdfs

java - hadoop中配置文件的加载顺序是什么？

我使用下面的程序来重命名一个目录，但是我得到了异常，这似乎只是假设我使用的是本地文件系统。实际上，在我的core-site.xml中，我已经将fs.default.name设置为hdfs，而不是本地文件系统。所以，我想知道配置文件的加载顺序，以及为什么它认为我在使用本地文件系统。如何解决？谢谢`fs.default.namehdfs://xiliu:54310true`hadoop.tmp.dir/data1/hadoop/hdfs/tmptruepublicclassFSUtilextendsConfigured{privatestaticConfigurationconf;stat

hadoop java section mapreduce

hadoop - hadoop真的能处理数据节点故障吗？

在我们的hadoop设置中，当数据节点崩溃(或)hadoop在数据节点上没有响应时，reduce任务失败无法从失败的节点读取(下面的异常)。我认为hadoop处理数据节点故障，这是创建hadoop的主要目的。有人在他们的集群中遇到类似的问题吗？如果您有解决方案，请告诉我。java.net.SocketTimeoutException:Readtimedoutatjava.net.SocketInputStream.socketRead0(NativeMethod)atjava.net.SocketInputStream.read(UnknownSource)atjava.io.Buff

hadoop 真的 ReduceTask section mapreduce hadoop-streaming

python - 在python中使用Hadoop处理大型csv文件

我有一个巨大的CSV文件，我想在AmazonEMR(python)上使用HadoopMapReduce进行处理。该文件有7个字段，但是，我只查看日期和数量字段。"date""receiptId""productId""quantity""price""posId""cashierId"首先是我的mapper.pyimportsysdefmain(argv):line=sys.stdin.readline()try:whileline:list=line.split('\t')#Ifdatemeetscriteria,addquantitytoexpresskeyifint(list[0

python 大型 34 section list hadoop amazon-web-services mapreduce