草庐IT

Mapreduce1

全部标签

amazon-web-services - 使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库

我必须使用名为weka的第三方库执行一些数据挖掘任务。但我不确定如何在amazonelasticmapreduce服务中包含所需的jar文件。有没有人有处理过这种情况的经验? 最佳答案 一个简单的解决方案是使用映射器和缩减器将依赖项放入jar文件中。如果您使用Maven构建我建议使用MavenAssemblyPlugin用于打包具有所有依赖项的单个jar的插件。 关于amazon-web-services-使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库,我们在St

hadoop - 使用 hadoop mapreduce 作业从日志文件分析时间范围内的总错误条目发生率

我在HDFS中存储了大量日志文件,如下所示:2012-10-2000:05:00;BEGIN...SQLERROR-678:Errormessage...2012-10-2000:47:20;END我想知道某个时间范围内某些sql错误代码出现的频率,例如:从2012年10月20日凌晨0:00到2012年10月20日凌晨1:00,发生了多少678SQL错误。由于文件通常被分成几个block,它们可以分布在所有数据节点之间。这样的查询可能吗?我想使用hadoopmapreduceJavaAPI或ApachePig,但我不知道如何应用时间范围条件。 最佳答案

java - 在运行一个简单的 MapReduce 程序时获取 java.lang.ClassCastException : class java. lang.String

我正在尝试执行一个简单的MapReduce程序,其中Map接受输入,将其分成两部分(key=>String和value=>Integer)reducer汇总相应键的值我每次都收到ClassCastException。我无法理解,代码中的什么导致了这个错误我的代码:importjava.io.IOException;importjava.util.Iterator;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg

java - 用于从 hdfs 提供输入并将输出写入 excel 文件的 Hadoop Mapreduce 示例

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我是Hadoop编程的新手,我在Haddop中找到了一些关于mapreduce的有用链接,我可以处理。这对我和初学者都非常有用。所有示例都显示为从eclipse提供输入,输出可以在eclipse的输出文件夹中看到。在这里我想知道如何从HDFS提供输入(我的意思是而不是从eclipse提供)。并将输出写入某个Excel文件。请多多指教。

java - 静态变量在可运行 jar 中不起作用(hadoop mapreduce)

这个问题在这里已经有了答案:HadoopMapReducereferencestaticobjects(3个答案)关闭8年前。我是hadoop的新手。我正在尝试在我的映射器中使用静态变量。我在主类中声明静态变量publicstaticStringvar="";之后我在我的main()中给出了一些动态值var="123456";然后我在映射器类中的map()中使用这个变量但它给我nullpointerException。当我使用Eclipse时,我能够在具有maven依赖项的普通Java核心项目中执行但是当我使它成为可运行的jar并且它在hadoop服务器上运行它给我nullPointe

hadoop - hadoop 中的数据包计数(使用 Mapreduce)

事情已经完成:从以下链接安装Hadoop:http://www.cloudera.com/content/cloudera/en/documentation/cdh4/v4-2-0/CDH4-Installation-Guide/cdh4ig_topic_4_4.html安装Hping3以使用以下方式生成泛洪请求:sudohping3-c10000-d120-S-w64-p8000--flood--rand-source192.168.1.12已安装snort以记录上述使用的请求:sudosnort-ved-h192.168.1.0/24-l.这会生成日志文件snort.log.142

java - 修改 MapReduce 中的映射器大小(拆分大小)以获得更快的性能

有没有办法通过改变map任务的数量或者改变每个mapper的splitsize来提高MapReduce的性能?例如,我有一个100GB的文本文件和20个节点。我想在文本文件上运行WordCount作业,理想的映射器数量或理想的拆分大小是多少才能更快地完成?使用更多映射器会更快吗?使用较小的拆分大小会更快吗?编辑我正在使用hadoop2.7.1,所以你知道有YARN。 最佳答案 当你使用更多的映射器时,它不一定更快。每个映射器都有一个启动和设置时间。在hadoop的早期,当mapreduce是事实上的标准时,据说映射器应该运行大约10

java - 在本地机器上运行 mapreduce 时在 IDEA 和集群上的 hadoop 上运行不同的输出

问题出在描述中。我有一些代码。这是reducer。publicclassRTopLocextendsReducer{privatestaticintnumber=0;privatestaticCompositeKeylastCK=newCompositeKey();privatestaticTextlastLac=newText();@Overridepublicvoidreduce(CompositeKeykey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intsum=sumValues(

java - 如何在 Mapreduce 中生成 UUID?

我想编写一个MapReducejava程序,我需要在其中为csv/txt文件中的一组数据创建UUID。数据将是具有一组行和列的客户数据。输入csv位于HDFS目录中。只需要使用Mapreduce生成UUID。我有一个包含a、b和c列且有5行的输入文件。我需要一个带有5行UUID的d列,即5个不同的UUID我该怎么做?这是Mapper类的代码:公共(public)类MapRed_Mapper扩展Mapper{publicvoidmap(Textkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Textu

xml - 如何使用 Elastic MapReduce 对数百万个小型 S3 xml 文件运行 XSLT 转换?

更具体地说,是否有某种简单的流媒体解决方案? 最佳答案 请参阅此链接:HowdoIprocessfiles,onepermap?将您的数据上传到S3存储桶生成一个文件,其中包含每个文件的完整s3n://路径编写一个映射器脚本:从环境中提取“mapred_work_output_dir”(*)根据文件名进行XSLT转换,保存到输出目录编写一个什么也不做的身份归约器将您的映射器/缩减器脚本上传到S3存储桶通过AWSEMR控制台测试您的脚本(*)Streaming将您的jobconf置于流程环境中。见代码here.