write-host_草庐IT

hadoop - 如何在 context.write(k,v) 中输出值

在我的mapreduce工作中，我只想输出一些行。但是如果我这样编码:context.write(data,null);程序将抛出java.lang.NullPointerException。我不想像下面这样编码:context.write(data,newText(""));因为我必须修剪输出文件中每一行的空格。有什么好的方法可以解决吗？提前致谢。对不起，是我的错。我仔细检查了程序，发现原因是我将Reducer设置为combiner。如果我不使用组合器，声明context.write(数据，空)；在reducer中工作正常。在输出数据文件中，只有数据线。分享来自hadoop权威指南的

hadoop - HDFS 性能差 : "Slow BlockReceiver write packet to mirror"

我想在新硬件堆栈上实例化另一个新Hadoop集群时提交一个奇怪的行为。一旦一切都安装好了，只要我们尝试在HDFS上执行任何I/O操作，我们就可以在数据节点日志中看到许多这样的消息:15/01/1422:13:07WARNdatanode.DataNode:SlowBlockReceiverwritepackettomirrortook6339ms(threshold=300ms)15/01/1422:13:26INFODataNode.clienttrace:src:/10.10.5.7:17276,dest:/10.10.5.4:50010,bytes:176285,op:HDFS_

Scala 和 Hive : best way to write a generic method that works with all types of Writable

我正在玩在Scala中为Hive编写通用UDF。我的第一个测试是编写一个函数来对数组(复杂数据类型)求和。我的代码stub如下所示(因为这是stub，请忽略asInstanceOf的用法:D):...classSumElementsextendsGenericUDF{protectedvalexpectedCategories:Array[Category]=Array(ObjectInspector.Category.LIST)protectedvarlistInspector:ListObjectInspector=_@throws(classOf[UDFNullArgumentE

java - Hadoop "error while writing TokenizerMapper permission denied"

我正在使用GoogleDeveloperConsole运行Hadoop示例“WordCount”。我在运行hadoopcom.sun.tools.javac.MainWordCount.java时遇到的错误是:WordCount.java:26:error:errorwhilewritingTokenizerMapper:WordCount$TokenizerMapper.class(Permissiondenied)publicstaticclassTokenizerMapper有一个箭头指向最后一行的类。echo$HADOOP_CLASSPATH返回/usr/lib/jvm/jav

java - Driver 中的 job.setOutputKeyClass 和 setOutputValueClass 与 reducer 的 context.write 方法不匹配，程序仍然运行正常。怎么办？

驱动代码:publicclassWcDriver{publicstaticvoidmain(String[]args)throwsIOException,InterruptedException,ClassNotFoundException{Configurationconf=newConfiguration();Jobjob=newJob(conf,"WcDriver");job.setJarByClass(WcDriver.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.cl

hadoop - 如何配置hadoop使用非默认端口: "0.0.0.0: ssh: connect to host 0.0.0.0 port 22: Connection refused"

当我运行start-dfs时，出现以下错误，看起来我需要告诉hadoop使用不同的端口，因为这是我通过ssh进入本地主机时所需要的。换句话说，以下操作成功:ssh-p2020localhost.[WedJan0616:57:34root@~]#start-dfs.sh16/01/0616:57:53WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[localhost]l

hadoop - Flume 代理 : add host to message, 然后发布到 kafka 主题

我们开始通过向Kafka主题发布消息来整合应用程序的事件日志数据。虽然我们可以直接从应用程序写入Kafka，但我们选择将其视为一般问题并使用Flume代理。这提供了一些灵active:如果我们想从服务器捕获其他内容，我们可以拖尾不同的来源并发布到不同的Kafka主题。我们创建了一个Flume代理配置文件来跟踪日志并发布到Kafka主题:tier1.sources=source1tier1.channels=channel1tier1.sinks=sink1tier1.sources.source1.type=exectier1.sources.source1.command=tail-

hadoop - 亚马逊 EC2 和 S3 : How to read and write data

我刚刚遵循了本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在运行hadoop和hbase的AmazonEC2上设置集群。我现在想知道的是，我实际上如何在我的集群上运行的hbase中获取我的数据？我需要将它加载到S3中然后加载到我的hbase集群中吗？是否有加载/提取数据的最佳实践？由于我是EC2的新手，因此我将不胜感激。最佳答案您需要通过SSH连接到您的一个节点，

Hadoop mapreduce 出现 "Cannot resolve the host name"错误

现在运行Hadoopmapreduce作业，输入数据来自HBase表，最近出现错误，错误如下:错误mapreduce.TableInputFormatBase:无法解析/172.16.4.195的主机名，因为javax.naming.NameNotFoundException:找不到DNS名称[响应代码3]；剩余名称'195.4.16.172.in-addr.arpa'*172.16.4.195*是集群节点(slave)ip地址，我不知道“195.4.16.172”是什么。我第一次运行这个job的时候没有这个错误，不知道为什么会出现这个错误。如果你解决了问题，请告诉我，谢谢。

hadoop 数据节点无法启动。 "does not contain a valid host:port authority"

我目前使用的是hadoop1.2.1(因为我需要运行一个只支持这个版本的空间处理软件)。我正在尝试以一个主节点和三个从节点的多节点模式进行部署。我确定我能够在所有主从之间无需密码(包括他们自己)之间进行ssh。每个节点上的主机名也是正确的。每个节点共享相同的主机文件:192.168.56.101master192.168.56.102slave1192.168.56.103slave2192.168.56.104slave3我的slaves节点一直有问题，错误日志信息如下，2015-05-2123:39:16,841ERRORorg.apache.hadoop.hdfs.server.