草庐IT

fft-with-mapreduce

全部标签

hadoop - java.lang.RuntimeException : java. lang.NoSuchMethodException:Hadoop mapreduce

我收到java.lang.NoSuchMethodException请帮我解决这个问题......importjava.io.BufferedReader;importjava.io.FileReader;importjava.io.IOException;importjava.text.DateFormat;importjava.text.SimpleDateFormat;importjava.util.Date;importjava.util.HashMap;importorg.apache.hadoop.conf.Configuration;importorg.apache.ha

java - 比较mapreduce中的三个字段

我有一个mapreduce程序,它将输入作为名字、姓氏和手机号码。我想将这3个字段分组为一个键。为此,我为一个类使用了WritableComparable接口(interface)。我的代码是:privatestaticclassMultifieldimplementsWritableComparable{Textfirstname1;Textlastname1;Textmobile1;publicMultifield(Textfirstname1,Textlastname1,Textmobile1){this.firstname1=firstname1;this.lastname1=

hadoop mapreduce 反之亦然

我有以下示例数据,我正在使用这些数据来学习hadoopmapreduce。比如follower和followee的数据。Follower,followeea,ba,ca,dc,bb,dd,ab,cb,ee,f比如a在b之后,a在c之后等等....我正在尝试操作数据并获得结果,如果a跟随b并且b也跟随a那么a,b应该是输出txt文件中的结果。我是mapreduce的新手,并试图找到一种方法以便获得以下结果。a,dc,b 最佳答案 您可以使用一个技巧来实现这一点。诀窍是以(a,d)和(d,a)具有相同key并最终进入相同缩减器的方式将键

Hadoop:如何将作业发送到 master 和 mapreduce 上的节点?

我正在学习Hadoopmapreduce基本原理,很多东西都看不懂。一件事是作业如何从客户端发送到主节点和节点。假设我们有客户端、主服务器和两个从服务器。据我了解,Mapper类位于java类的客户端上。客户端连接到主服务器,下一步是什么?Mapper类中的代码如何传递给主节点,然后传递给节点?还是我理解错了? 最佳答案 如图所示,这是发生的事情:您使用hadoopjar命令在客户端上运行作业,在该命令中您传递jar文件名、类名和其他参数(例如输入和输出)客户端将获得新的应用程序ID,然后它将jar文件和其他作业资源复制到具有高复制

Python HDFS 蛇咬伤 : Methods work only with print

我正在使用snakebite客户端https://github.com/spotify/snakebite当我尝试在hdfs中创建目录或移动文件时,我注意到一个奇怪的行为。这是我的代码。它所做的只是将源目录的内容移动到目标目录。最后,显示目标目录的内容defpurge_pending(self,source_dir,dest_dir):if(self.hdfs_serpent.test(path=self.root_dir+"/"+source_dir,exists=True,directory=True)):print"Sourceexists",self.root_dir+sour

hadoop - 使用 MapReduce 并行查询 HBase 的行键列表

我想在HBase中执行查询操作以使用提供的行键列表获取记录。由于MapReduce中的Mappers是并行工作的,所以我想使用它。行键的输入列表将在~100000范围内,我为映射器创建了一个customInputFormat,它将为每个映射器提供1000个行键的列表,用于查询HBase表。这些查询的记录可能存在也可能不存在于HBase表中,我只想返回那些存在的记录。我看过各种examples,我发现执行hbase表scan操作以获取行键的范围,范围由startingRowKey和endingRowKey指定,但我只想查询提供的行键列表。我如何使用MapReduce做到这一点?欢迎任何帮

hadoop - Mapreduce - 当 reducer 达到 67% 时超时

当reducer达到67%时,我们会收到超时异常,我认为这是在排序阶段之后和reduce阶段之前。请告知我们应该寻找哪些参数来解决问题。16/06/1516:58:13INFOmapreduce.Job:map100%reduce0%16/06/1516:58:23INFOmapreduce.Job:map100%reduce24%16/06/1516:59:05INFOmapreduce.Job:map100%reduce28%16/06/1516:59:08INFOmapreduce.Job:map100%reduce30%16/06/1516:59:39INFOmapreduce

apache-spark - Spark with Hive 是否可以将项目阶段推送到 HiveTableScan?

我正在使用SparkSQL查询Hive中以ORC格式存储的数据。当我对提供给spark.sql(query)的查询运行解释命令时,我看到以下查询计划:==PhysicalPlan==*Project[col1,col2,col3]+-*Filter(....)+-HiveTableScan[col1,col2,col3,...col50]据我所知,从Hive查询所有50列,然后才在Spark中进行过滤,后记仅选择所需的实际列。是否可以将所需的列直接下推到Hive,以便它们不会一直加载到Spark? 最佳答案 检查以下属性是否设置为默

hadoop - mapreduce 中的高效集合操作

我继承了一个mapreduce代码库,它主要计算随着时间的推移看到的不同广告的唯一用户ID的数量。在我看来,它的执行效率似乎并不高,我想知道是否有人对如何在mapreduce中尽可能高效地执行此类计算有任何提示或建议。我们使用Hadoop,但我将在伪代码中给出一个例子,没有所有的废话:map(key,value):ad_id=..//extractfromvalueuser_id=...//extractfromvaluecollect(ad_id,user_id)reduce(ad_id,user_ids):uniqe_user_ids=newSet()foreach(user_id

amazon-s3 - 将目录作为压缩文件从 Elastic MapReduce 上传到 S3

我想将EMR本地文件系统中的目录作为压缩文件上传到s3。有没有比我目前使用的方法更好的方法来解决这个问题?是否可以将ZipOutputStream作为Reducer输出返回?谢谢zipFolderAndUpload("target","target.zip","s3n://bucketpath/");staticpublicvoidzipFolderAndUpload(StringsrcFolder,StringzipFile,Stringdst)throwsException{//ZipsadirectoryFileOutputStreamfileWriter=newFileOutp