草庐IT

fft-with-mapreduce

全部标签

java - Hadoop MapReduce 中数值数据集的分箱

我能够使用HadoopMapReduce在数据挖掘中执行一些预处理步骤。其中之一就是规范化。说100,1:2:3101,2:3:4进入100110021003101210131014我能像iris.csv一样对数字数据进行装箱吗?我算出了它背后的数学原理虹膜数据集:http://archive.ics.uci.edu/ml/datasets/Iris找出每个属性的最小值和最大值在数据集中。萼片长度|萼片宽度|花瓣长度|花瓣宽度分钟|4.3|2.0|1.0|0.1最大|7.9|4.4|6.9|2.5然后,我们应该将每个属性的数据值分成“n”个桶。比如说,n=5。BucketWidth=(

hadoop - 克伯罗斯 |云时代 | Krb异常 : Encryption type AES256 CTS mode with HMAC SHA1-96

我一直在尝试为CDH4.5设置Kerberos,这是使用ClouderaManager安装程序设置的。说明来自以下链接:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.5.2/Configuring-Hadoop-Security-with-Cloudera-Manager/cmeechs_topic_4.html设置和KDC后,我将Java6文件的JCE策略复制到以下位置:/usr/java/jdk1.6.0_31/lib/security/以下是我的“/var/kerberos/krb5

hadoop - 根据相同键的值编写列表 MapReduce Hadoop

有谁知道如何在一行中将同一键的值列表写入输出文件?例如,我有这个:(键,值)0[0,2,4,5],1[1,2,3]我想要输出:002451123代替000204...等等 最佳答案 只需将reducer中的所有值连接成一个字符串,然后将值作为Text写出。例如publicvoidreduce(IntWritablekey,Iterablevalues,Contextcontext)...{StringBuildersb=newStringBuilder();for(IntWritablevalue:values){sb.append

java - 从 Java 应用程序在 hadoop 2.2 (Yarn) 上启动 mapreduce 作业

我正在尝试从Java应用程序调用mapreduce作业。在以前的hadoop版本(1.x)中,我创建了一个Configuration对象和一个Job对象,在Configuration中设置mapred.job.tracker和fs.default.name并运行Job。现在,在hadoop2.x中,作业跟踪器不再存在,也不存在任何关于如何以编程方式运行MR作业的文档。有什么想法吗?我正在寻找的是此处给出的解释:callmapreducefromajavaprogram 最佳答案 你需要三样东西://thisshouldbeliked

java - 如何在 Apache Spark 中重置 MapReduce 函数上的迭代器

我是Apache-Spark的新手。我想知道如何在ApacheSpark的MapReduce函数中重置指向Iterator的指针,这样我就写了Iterator>>iter=arg0;但它不起作用。以下是在java中实现MapReduce功能的类。classCountCandidatesimplementsSerializable,PairFlatMapFunction>>,Set,Integer>,Function2{privateList>currentCandidatesSet;publicCountCandidates(finalList>currentCandidatesSet

macos - 由 : java. lang.ClassNotFoundException : org. apache.hadoop.mapreduce.InputFormat 引起

我在MACOSX10.9.4中执行sqoop导入并收到如下错误:14/10/2411:51:41INFOsqoop.Sqoop:RunningSqoopversion:1.4.514/10/2411:51:41INFOtool.BaseSqoopTool:UsingHive-specificdelimitersforoutput.Youcanoverride14/10/2411:51:41INFOtool.BaseSqoopTool:delimiterswith--fields-terminated-by,etc.14/10/2411:51:41INFOmanager.MySQLMan

java.io.IOException : Cannot initialize Cluster in Hadoop2 with YARN 异常

这是我第一次在stackoverflow上发帖,所以如果我做错了什么,我深表歉意。我最近建立了一个新的hadoop集群,这是我第一次尝试使用Hadoop2和YARN。我目前在提交作业时遇到以下错误。java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfigurationformapreduce.framework.nameandthecorrespondserveraddresses.atorg.apache.hadoop.mapreduce.Cluster.initialize(Cluster.java:120)

python - 使用 MapReduce 是否可以保证具有相同键的所有值都将进入相同的 reducer?

我有一个正在处理的MapReduce项目(具体来说,我正在使用Python和库MrJob并计划使用Amazon的EMR运行)。这是总结我遇到的问题的示例:我有数千GB的json文件,里面装满了客户数据。我需要去运行每个客户json行/输入/对象的每日、每周和每月报告。所以对于我目前做的map步骤:map_step(_,customer_json_object)c_uuid=customer_json_object.uuidifcustomer_json_object.timeisindaily_time_range:yield"%s-%s"%(DAILY_CONSTANT,c_uuid

hadoop - 如何在终端调试 MapReduce 任务?

有没有一种使用终端模拟MapReduce作业的简单方法?我想知道是否有一种简单的方法可以在编写代码时调试它。 最佳答案 我习惯于使用Python进行Hadoop流式处理,但我相信该解决方案也可以复制到其他语言。所以,这就是我的解决方案:catinput_folder/*|pythonmap.py|排序|pythonreduce.py同样值得一提的是,您可以通过简单地运行来查看reducer接收到的值作为输入:catinput_folder/*|pythonmap.py|排序 关于hado

hadoop - Apache Spark 如何实现比 Hadoop MapReduce 快 100 倍的速度以及在什么场景下?

ApacheSpark[http://spark.apache.org/]声称在内存方面比ApacheHadoop快100倍。它是如何实现这种惊人的加速的?这种加速仅适用于迭代机器学习算法还是适用于ETL(提取-转换-加载)任务,如JOIN和GROUPBY?Spark的RDD(弹性分布式数据集)和DataFrames都可以提供这种加速吗?Spark社区有针对上述部分场景的benchmark测试结果吗? 最佳答案 Spark在内存中进行数据处理。不会像MapReduce那样有中间文件,所以没有I/O或者可以忽略不计。它并没有在所有情况