fft-with-mapreduce

java - Hadoop MapReduce 中数值数据集的分箱

我能够使用HadoopMapReduce在数据挖掘中执行一些预处理步骤。其中之一就是规范化。说100,1:2:3101,2:3:4进入100110021003101210131014我能像iris.csv一样对数字数据进行装箱吗？我算出了它背后的数学原理虹膜数据集:http://archive.ics.uci.edu/ml/datasets/Iris找出每个属性的最小值和最大值在数据集中。萼片长度|萼片宽度|花瓣长度|花瓣宽度分钟|4.3|2.0|1.0|0.1最大|7.9|4.4|6.9|2.5然后，我们应该将每个属性的数据值分成“n”个桶。比如说，n=5。BucketWidth=(

MapReduce Hadoop code 射器 reducer java

hadoop - 克伯罗斯 |云时代 | Krb异常 : Encryption type AES256 CTS mode with HMAC SHA1-96

我一直在尝试为CDH4.5设置Kerberos，这是使用ClouderaManager安装程序设置的。说明来自以下链接:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.5.2/Configuring-Hadoop-Security-with-Cloudera-Manager/cmeechs_topic_4.html设置和KDC后，我将Java6文件的JCE策略复制到以下位置:/usr/java/jdk1.6.0_31/lib/security/以下是我的“/var/kerberos/krb5

Encryption hadoop security Server java kerberos cloudera cloudera-manager

hadoop - 根据相同键的值编写列表 MapReduce Hadoop

有谁知道如何在一行中将同一键的值列表写入输出文件？例如，我有这个:(键，值)0[0,2,4,5],1[1,2,3]我想要输出:002451123代替000204...等等最佳答案只需将reducer中的所有值连接成一个字符串，然后将值作为Text写出。例如publicvoidreduce(IntWritablekey,Iterablevalues,Contextcontext)...{StringBuildersb=newStringBuilder();for(IntWritablevalue:values){sb.append

MapReduce 编写 section code IntWritable hadoop

java - 从 Java 应用程序在 hadoop 2.2 (Yarn) 上启动 mapreduce 作业

我正在尝试从Java应用程序调用mapreduce作业。在以前的hadoop版本(1.x)中，我创建了一个Configuration对象和一个Job对象，在Configuration中设置mapred.job.tracker和fs.default.name并运行Job。现在，在hadoop2.x中，作业跟踪器不再存在，也不存在任何关于如何以编程方式运行MR作业的文档。有什么想法吗？我正在寻找的是此处给出的解释:callmapreducefromajavaprogram 最佳答案你需要三样东西://thisshouldbeliked

mapreduce hadoop section java hadoop-yarn resourcemanager

java - 如何在 Apache Spark 中重置 MapReduce 函数上的迭代器

我是Apache-Spark的新手。我想知道如何在ApacheSpark的MapReduce函数中重置指向Iterator的指针，这样我就写了Iterator>>iter=arg0;但它不起作用。以下是在java中实现MapReduce功能的类。classCountCandidatesimplementsSerializable,PairFlatMapFunction>>,Set,Integer>,Function2{privateList>currentCandidatesSet;publicCountCandidates(finalList>currentCandidatesSet

数上何在 String lt gt java hadoop mapreduce apache-spark hadoop-yarn

macos - 由 : java. lang.ClassNotFoundException : org. apache.hadoop.mapreduce.InputFormat 引起

我在MACOSX10.9.4中执行sqoop导入并收到如下错误:14/10/2411:51:41INFOsqoop.Sqoop:RunningSqoopversion:1.4.514/10/2411:51:41INFOtool.BaseSqoopTool:UsingHive-specificdelimitersforoutput.Youcanoverride14/10/2411:51:41INFOtool.BaseSqoopTool:delimiterswith--fields-terminated-by,etc.14/10/2411:51:41INFOmanager.MySQLMan

ClassNotFoundException InputFormat java URLClassLoader ClassLoader macos hadoop sqoop

java.io.IOException : Cannot initialize Cluster in Hadoop2 with YARN 异常

这是我第一次在stackoverflow上发帖，所以如果我做错了什么，我深表歉意。我最近建立了一个新的hadoop集群，这是我第一次尝试使用Hadoop2和YARN。我目前在提交作业时遇到以下错误。java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfigurationformapreduce.framework.nameandthecorrespondserveraddresses.atorg.apache.hadoop.mapreduce.Cluster.initialize(Cluster.java:120)

IOException initialize hadoop jar 01 java hadoop-yarn hadoop2

python - 使用 MapReduce 是否可以保证具有相同键的所有值都将进入相同的 reducer？

我有一个正在处理的MapReduce项目(具体来说，我正在使用Python和库MrJob并计划使用Amazon的EMR运行)。这是总结我遇到的问题的示例:我有数千GB的json文件，里面装满了客户数据。我需要去运行每个客户json行/输入/对象的每日、每周和每月报告。所以对于我目前做的map步骤:map_step(_,customer_json_object)c_uuid=customer_json_object.uuidifcustomer_json_object.timeisindaily_time_range:yield"%s-%s"%(DAILY_CONSTANT,c_uuid

MapReduce reducer customer_json_object customer section python hadoop bigdata mrjob

hadoop - 如何在终端调试 MapReduce 任务？

有没有一种使用终端模拟MapReduce作业的简单方法？我想知道是否有一种简单的方法可以在编写代码时调试它。最佳答案我习惯于使用Python进行Hadoop流式处理，但我相信该解决方案也可以复制到其他语言。所以，这就是我的解决方案:catinput_folder/*|pythonmap.py|排序|pythonreduce.py同样值得一提的是，您可以通过简单地运行来查看reducer接收到的值作为输入:catinput_folder/*|pythonmap.py|排序关于hado

何在 MapReduce section code python hadoop hadoop-streaming

hadoop - Apache Spark 如何实现比 Hadoop MapReduce 快 100 倍的速度以及在什么场景下？

ApacheSpark[http://spark.apache.org/]声称在内存方面比ApacheHadoop快100倍。它是如何实现这种惊人的加速的？这种加速仅适用于迭代机器学习算法还是适用于ETL(提取-转换-加载)任务，如JOIN和GROUPBY？Spark的RDD(弹性分布式数据集)和DataFrames都可以提供这种加速吗？Spark社区有针对上述部分场景的benchmark测试结果吗？最佳答案 Spark在内存中进行数据处理。不会像MapReduce那样有中间文件，所以没有I/O或者可以忽略不计。它并没有在所有情况

MapReduce hadoop section Spark li apache-spark bigdata distributed-computing