草庐IT

mapReduce

全部标签

hadoop - Apache Pig 和 Apache Hive 有什么区别?

Pig和Hive之间的确切区别是什么?我发现两者具有相同的功能意义,因为它们用于完成相同的工作。唯一不同的是实现方式。那么什么时候使用什么技术呢?是否有任何规范可以清楚地表明两者在适用性和性能方面的差异? 最佳答案 ApachePig和Hive是两个位于Hadoop之上的项目,它们为使用Hadoop的MapReduce库提供了更高级的语言。ApachePig提供了一种脚本语言来描述读取、过滤、转换、连接和写入数据等操作——这正是MapReduce最初设计的目的。Pig不是用直接使用MapReduce的数千行Java代码来表达这些操作

performance - 分布式局部聚类系数算法(MapReduce/Hadoop)

我已经实现了基于MapReduce范例的localclusteringcoefficientalgorithm.但是,对于更大的数据集或特定的数据集(节点的平均度数高),我遇到了严重的麻烦。我试图调整我的hadoop平台和代码,但结果并不令人满意(至少可以这么说)。不,我已经将注意力转移到实际更改/改进算法上。下面是我目前的算法(伪代码)foreach(NodeinGraph){//Job1/*Transformedge-basedinputdatasettonode-baseddataset*///Job2map(){emit(this.Node,this.Node.neighbou

hadoop - 新 Hadoop API 中的 identityreducer

我花了将近一天的时间,但无法弄清楚如何在新的HadoopAPI中使用IdentityReducer。我能找到的所有引用资料或类都使用旧API。显然,在新API代码库中混合旧APIidetntitreducer类并不顺利。任何帮助将不胜感激。 最佳答案 主要是因为在新的API中Mapper和Reducer是类而不是接口(interface),它们是IdentityMapper/Reducer的新替代者。所以你只需要使用Mapper.class和Reducer.class来获取标识。 关于h

Hadoop 输入拆分大小与 block 大小

我正在阅读hadoop权威指南,其中清楚地解释了输入拆分。就像Inputsplitsdoesn’tcontainactualdata,ratherithasthestoragelocationstodataonHDFS和Usually,SizeofInputsplitissameasblocksize1)假设一个64MB的block在节点A上并在其他2个节点(B、C)之间复制,并且map-reduce程序的输入分割大小为64MB,这个分割会吗只有节点A的位置?或者它是否具有所有三个节点A、b、C的位置?2)由于数据对于所有三个节点都是本地的,因此框架如何决定(选择)一个maptask在

java - 映射 : expected org. apache.hadoop.io.Text 中的键类型不匹配,收到 org.apache.hadoop.io.LongWritable

我正在尝试在java中运行map/reducer。以下是我的文件WordCount.javapackagecounter;publicclassWordCountextendsConfiguredimplementsTool{publicintrun(String[]arg0)throwsException{Configurationconf=newConfiguration();Jobjob=newJob(conf,"wordcount");job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.cl

hadoop - 有没有人发现 Cascading for Hadoop Map Reduce 有用?

我一直在尝试Cascading,但我看不出在编写作业时比经典的mapreduce方法有任何优势。MapReduce工作给了我更多的自由,而Cascading似乎设置了很多障碍。可能会使简单的事情变得简单,但复杂的事情..我发现它们非常难有什么我想念的吗?与经典方法相比,级联是否有明显的优势?在什么情况下我应该选择级联而不是经典方法?有人使用它并且开心吗? 最佳答案 记住我是Cascading的作者......如果Pig或Hive对您的问题有意义,我的建议是使用它们,尤其是Pig。但是,如果您从事数据业务,而不仅仅是浏览数据以获取见解

hadoop - HDFS 中的大块大小!未使用的空间如何计算?

我们都知道,与传统文件系统中的block大小相比,HDFS中的block大小相当大(64M或128M)。这样做是为了减少寻道时间与传输时间的百分比(传输速率的改进比磁盘寻道时间的改进规模大得多,因此,设计文件系统的目标始终是减少与要传输的数据量相比的查找次数)。但这带来了内部碎片的额外缺点(这就是为什么传统的文件系统block大小不是那么大并且只有几KB的数量级——通常为4K或8K)。我正在浏览这本书-Hadoop,权威指南,发现这写在某处,一个小于HDFSblock大小的文件不占用整个block并且不占整个block的空间但无法理解如何?有人可以对此有所了解吗。

hadoop - MapReduce 作业卡在已接受状态

我有自己的MapReduce代码,我正在尝试运行它,但它只是停留在已接受状态。我尝试运行我之前运行过的另一个示例MR作业,它是成功的。但是现在,这两个工作都处于已接受状态。我尝试更改mapred-site.xml和yarn-site.xml中的各种属性,如前所述here和here但这也无济于事。有人可以指出可能出了什么问题吗?我正在使用hadoop-2.2.0我已经为各种属性尝试了很多值,这里是一组值-在mapred-site.xml中mapreduce.job.trackerlocalhost:54311mapreduce.job.tracker.reserved.physicalm

hive的引擎mapreduce、tez和spark对比

hive引擎简介Hive的执行引擎包括以下几种:HiveonMapReduceHive最早使用的执行引擎是基于HadoopMapReduce的。它将Hive查询转化为一系列的MapReduce任务进行并行执行。MapReduce引擎适用于处理大规模数据集,具有良好的容错性和扩展性,但由于磁盘读写和中间结果的持久化,可能在性能和响应时间方面受到影响。HiveonTezHive可以使用ApacheTez作为执行引擎来加速查询处理。Tez是一个用于高效执行大规模数据处理任务的执行框架,它源于MapReduce架构,核心思想是将Map和Reduce两个操作进一步拆分。它可以将查询的逻辑执行计划转化为一

一篇搞定分布式大数据系统所有概念,包括有Hadoop、MapReduce、HDFS、HBASE、NoSql 、ZooKeeper 、Reidis 、Nginx 、BASE、CAP定义、特点和应用场景

大规模分布式系统知识点学习1.Hadoop1.1hadoop定义和特点Hadoop定义:Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它基于Google的MapReduce论文和Google文件系统(GFS)的设计理念,并由Apache软件基金会进行开发和维护。Hadoop的主要特点包括:分布式存储:Hadoop通过分布式文件系统(HadoopDistributedFileSystem,HDFS)将大规模数据集存储在多个节点上。数据被划分为块并复制到集群中的不同节点,从而实现高可靠性和容错性。分布式计算:Hadoop使用MapReduce编程模型,将任务划分为多个独立的部