草庐IT

hadoop - eclipse wordcount 程序中找不到类异常

我正在从eclipse运行一个字数统计程序,它说找不到类。我导出了与jar文件相同的程序并从命令行执行,它工作正常。错误堆栈跟踪14/02/1423:46:16WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.14/02/1423:46:16WARNmapred.JobClient:Nojobjarfileset.Userclassesmaynotbefound.SeeJobConf(Class)orJobConf#se

java - 仅映射的 UDF 是否受益于代数或累积?

在Hadoop上的Pig中,我有一个应用于大元组的JavaUDF,它仅采用大元组的4个字段,并且(在一些重要的计算之后)返回两个新值,我附加到大元组上。没有减少阶段。CanthisbenefitfrombeingmadeAlgebraic,orAccumulative?在没有任何分组的情况下,我看不出它会如何提高速度。似乎分组只是为了尝试获得加速是在错误方向上的巨大飞跃。 最佳答案 不,我认为您正在创建一个常规的EvalFunc。使其成为Algebraic或Accumulative是没有意义的。LOWER或REGEX_EXTRACT

php - 无法启动 Hbase Thrift 服务器

我在运行Ubuntu12.04的ubuntu系统中以伪分布式模式安装了Hadoop1.2.1和Hbase0.94.8。一切正常,所有守护进程都在运行。为了使用php访问hbase,我下载并安装了thrift0.9.1。$thrift-versionThriftversion0.9.1但是当我尝试使用命令启动thrift服务器时$/usr/lib/hbase/hbase-0.94.8/bin/hbasethriftstartthrift服务器开始启动。但在某个时刻终端挂起。终端的最后几行是14/02/1915:30:48INFOmortbay.log:Loggingtoorg.slf4j

java - 在 Reducer 中获取输入文件

我正在尝试编写一个mapreduce作业,我需要在其中迭代值两次。因此,当给出数字csv文件时,我们需要将其应用于每一列。为此,我们需要找到min和max值并将其应用到equation(v1)中。到目前为止我所做的是Inmap()IemitthecolumnidaskeyandeachcolumnasvaluesInReduce()Icalculatedtheminandmaxvaluesofeachcolumn.在那之后我就卡住了。接下来我的目标是应用等式(v=[(v−minA)/(maxA−minA)]*(newmaxA−newminA)+newminA)我的newmaxA和new

hadoop - 在 HDFS 中移动文件的最佳实践或工具

我们正在map-reduce上进行POC以计算我们应用程序的模块使用情况。应用程序在位于单独盒子上的J2EE容器上运行,hadoop安装在单独的盒子上,我们需要将日志文件从应用程序容器盒子移动到hadoop盒子。下面提到的是一些需要帮助/建议的查询。有什么工具/框架可以将日志文件从多个位置移动到HDFS?什么是最佳实践?如何运行移动文件的作业?移动到HDFS应该是cron作业还是文件大小触发器? 最佳答案 您需要ApacheFlume。Flume是一种流行的标准工具,用于将日志文件移动到HadoopHDFS中。它可以作为cron作业

java - 使用 MapReduce 拆分字符串并重建它

您好,我是Hadoop和MapReduce编程的新手。我正在处理一堆我们必须了解访问行为的apache日志。我们现在正在查看实际URI和引荐来源网址URI。这些引荐来源网址URI来自一个查询字符串,我试图通过MapReduce的映射器解析该查询字符串,并且由于我没有任何缩减器功能,所以我没有构建真正的缩减器。#ipdatetimemethoduristatuscoderefUriuserAgent79.28.43.25--[25/Jan/2009:13:18:02+0000]"GET/blog/2007/01/internet-explorer-7-in-italiano/HTTP/1

java - map 缩小 : Wordcount don't make anything

我想使用MapReduce和hadoopv.1.0.3(我在MacOS上)编写自己的字数统计示例,但我不明白为什么它不起作用分享我的代码:主要内容:packageorg.myorg;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.DoubleWritable;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.MapWritable;importorg.apache.hadoop.io.Text;importorg.apache.hado

java - hadoop 作业因奇怪的异常而失败

错误信息:java.io.IOException:Typemismatchinvaluefrommap:expectedorg.apache.hadoop.io.Text,recievedorg.apache.hadoop.io.LongWritableatorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:918)atorg.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:512)atmain.java.co

hadoop - 如何 ?使用 ambari 自动安装 hdp 以进行夜间构建 (CI)

我正在寻找如何安装hortonworks(hdp)集群的说明,使用ambari作为静默安装。我在ambari-server的手册中看到有这样做的选项,但它使用了默认值。amabri-serversetup-s(安装程序静默运行。接受所有默认提示值。)我该怎么做?我该如何更改默认值?我需要它的原因是为了我们的夜间构建。 最佳答案 这不是一个非常优雅的解决方案,但我使用expect通过生成ambari-server设置并自动将预配置值放入提示中来自动安装。 关于hadoop-如何?使用amb

hadoop - Flume--找不到主类 : org. apache.flume.tools.GetJavaProperty

我正在使用clouderaCDH4.4。当我运行flumecmd时-"bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,console"我遇到了一个错误:[cloudera@localhostFlume]$bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,consoleWarning:Noconfigurationdirectoryset!Use--confto