write_external_storage

hadoop - 如何在 context.write(k,v) 中输出值

在我的mapreduce工作中，我只想输出一些行。但是如果我这样编码:context.write(data,null);程序将抛出java.lang.NullPointerException。我不想像下面这样编码:context.write(data,newText(""));因为我必须修剪输出文件中每一行的空格。有什么好的方法可以解决吗？提前致谢。对不起，是我的错。我仔细检查了程序，发现原因是我将Reducer设置为combiner。如果我不使用组合器，声明context.write(数据，空)；在reducer中工作正常。在输出数据文件中，只有数据线。分享来自hadoop权威指南的

何在 context NullWritable section hadoop mapreduce output

hadoop - 亚马逊 EMR 和 Hive : Getting a "java.io.IOException: Not a file" exception when loading subdirectories to an external table

我正在使用AmazonEMR。我在s3中有一些日志数据，都在同一个桶中，但在不同的子目录下喜欢:"s3://bucketname/2014/08/01/abc/file1.bz""s3://bucketname/2014/08/01/abc/file2.bz""s3://bucketname/2014/08/01/xyz/file1.bz""s3://bucketname/2014/08/01/xyz/file3.bz"我正在使用:Sethive.mapred.supports.subdirectories=true;Setmapred.input.dir.recursive=true

subdirectories IOException code bucketname section hadoop amazon-web-services amazon-s3 hive emr

hadoop - HDFS 性能差 : "Slow BlockReceiver write packet to mirror"

我想在新硬件堆栈上实例化另一个新Hadoop集群时提交一个奇怪的行为。一旦一切都安装好了，只要我们尝试在HDFS上执行任何I/O操作，我们就可以在数据节点日志中看到许多这样的消息:15/01/1422:13:07WARNdatanode.DataNode:SlowBlockReceiverwritepackettomirrortook6339ms(threshold=300ms)15/01/1422:13:26INFODataNode.clienttrace:src:/10.10.5.7:17276,dest:/10.10.5.4:50010,bytes:176285,op:HDFS_

BlockReceiver amp code section li hadoop io hdfs

Scala 和 Hive : best way to write a generic method that works with all types of Writable

我正在玩在Scala中为Hive编写通用UDF。我的第一个测试是编写一个函数来对数组(复杂数据类型)求和。我的代码stub如下所示(因为这是stub，请忽略asInstanceOf的用法:D):...classSumElementsextendsGenericUDF{protectedvalexpectedCategories:Array[Category]=Array(ObjectInspector.Category.LIST)protectedvarlistInspector:ListObjectInspector=_@throws(classOf[UDFNullArgumentE

Writable generic code listInspector section scala hadoop generics hive

hadoop - 错误 : Failed to create Data Storage while running embedded pig in java

我写了一个简单的程序来测试java中的嵌入式pig在mapreduce模式下运行。我运行的服务器hadoop版本是0.20.2-cdh3u4a，pig版本是0.10.0-cdh3u4a。当我尝试在本地模式下运行时，它运行成功。但是当我尝试以mapreduce模式运行时，它给了我错误。我使用以下命令运行我的程序，如http://pig.apache.org/docs/r0.9.1/cont.html#embed-java中所示javac-cppig.jarEmbedPigTest.javajavac-cppig.jar:.:/etc/hadoop/confEmbedPigTest.jav

embedded Storage java pig apache hadoop apache-pig

java - Hadoop "error while writing TokenizerMapper permission denied"

我正在使用GoogleDeveloperConsole运行Hadoop示例“WordCount”。我在运行hadoopcom.sun.tools.javac.MainWordCount.java时遇到的错误是:WordCount.java:26:error:errorwhilewritingTokenizerMapper:WordCount$TokenizerMapper.class(Permissiondenied)publicstaticclassTokenizerMapper有一个箭头指向最后一行的类。echo$HADOOP_CLASSPATH返回/usr/lib/jvm/jav

TokenizerMapper permission code section java hadoop google-cloud-platform

java - Driver 中的 job.setOutputKeyClass 和 setOutputValueClass 与 reducer 的 context.write 方法不匹配，程序仍然运行正常。怎么办？

驱动代码:publicclassWcDriver{publicstaticvoidmain(String[]args)throwsIOException,InterruptedException,ClassNotFoundException{Configurationconf=newConfiguration();Jobjob=newJob(conf,"WcDriver");job.setJarByClass(WcDriver.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.cl

setOutputValueClass setOutputKeyClass code class job java hadoop mapreduce hadoop2

hadoop - 亚马逊 EC2 和 S3 : How to read and write data

我刚刚遵循了本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在运行hadoop和hbase的AmazonEC2上设置集群。我现在想知道的是，我实际上如何在我的集群上运行的hbase中获取我的数据？我需要将它加载到S3中然后加载到我的hbase集群中吗？是否有加载/提取数据的最佳实践？由于我是EC2的新手，因此我将不胜感激。最佳答案您需要通过SSH连接到您的一个节点，

hadoop write section hbase amazon-s3 amazon-ec2

java - Hadoop datanode 启动失败 org.apache.hadoop.hdfs.server.common.Storage : Cannot lock storage

我在尝试在Hadoop中启动数据节点时遇到一些问题，从日志中我可以看到数据节点启动了两次(部分日志如下):2012-05-2216:25:00,369INFOorg.apache.hadoop.hdfs.server.datanode.DataNode:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingDataNodeSTARTUP_MSG:host=master/192.168.0.1STARTUP_MSG:args=[]STARTUP_MSG:ve

datanode Storage hadoop apache java locking hdfs ubuntu-12.04

storage - 实现大规模日志文件分析

谁能给我指点引用或提供有关Facebook、雅虎、谷歌等公司如何执行大规模(例如多TB范围)日志分析的引用资料或高级概述，这些分析是他们为运营所做的，尤其是网络分析？特别关注网络分析，我对两个密切相关的方面很感兴趣:查询性能和数据存储。我知道一般方法是使用mapreduce将每个查询分布到集群上(例如使用Hadoop)。但是，最有效的存储格式是什么？这是日志数据，所以我们可以假设每个事件都有一个时间戳，并且通常数据是结构化的而不是稀疏的。大多数网络分析查询涉及分析两个任意时间戳之间的数据片段，并检索该数据中的聚合统计信息或异常情况。像BigTable(或HBase)这样的面向列的数据库

大规 storage section 的 hadoop mapreduce bigtable

132 133 134135136 137 138