cluster-computing

hadoop - 什么是比较 MPI 和 MapReduce 的良好基准测试方法？

我知道它的经验法则:大数据、非迭代、容错=>MapReduce;速度、小数据、迭代、非Mapper-Reducer类型=>MPI(HadoopMapReducevsMPI(vsSparkvsMahoutvsMesos)-Whentouseoneovertheother?)。我想知道的是我应该使用什么基准测试方法来证明MapReduce适用于大数据、非迭代、容错的情况。我应该使用什么基准测试方法来证明MPI在速度、小数据和迭代情况下表现出色。非常感谢您提供的任何帮助最佳答案你可以看看BigDataBench.它具有一系列不同的工作

MapReduce 良好 section stackoverflow hadoop mpi cluster-computing benchmarking

hadoop - 每当我更改 xml 配置文件时，是否需要重新启动所有 hadoop 守护进程

假设我的hadoop集群正在运行并且我对hdfs-site.xml进行了更改。我的问题是在这种情况下需要重新启动哪些服务/守护进程？同样，如果我对yarn-site.xml、core-site.xml、mapred-site.xml进行更改，哪些守护进程需要重新启动,allocations.xml或者我应该在上述每种情况下重新启动所有守护进程吗？最佳答案我的问题得到了答案。答案是这取决于我们要更改的服务配置属性。比方说，如果我们更改名称节点属性，我们需要重新启动HDFS服务。关于h

hadoop 每当 section code xml cluster-computing configuration-files restart daemons

hadoop - hadoop 辅助节点的问题

我是hadoop的新手。当我运行wordcount测试项目时，一切正常。但是，我无法访问位于http://localhost:50030的JobTracker。事实上，当我得到我的secondarynode日志文件时，我收到异常消息:java.io.IOException:Badeditlogmanifest(expectedtxid=3:[[21,22],[23,24][8683,8684],[8685,8686],[8687,8688],[8689,8690],[8691,8692],[8693,8694],[8695,8696],[8697,8698],[8699,8700]].

hadoop 辅助 code SecondaryNameNode logging cluster-computing

hadoop - 如何延长神经节？

我安装ganglia后，webUI只显示磁盘的基本指标信息，如下:但在ganglia演示网站中，pleaseseehere，它显示了许多关于磁盘iostat的指标，如下所示:我的问题是:我应该如何配置神经节以显示这些指标？我知道github上有很多ganglia模块，但是我不知道怎么用。我是神经节的新手，你能告诉我我该怎么做吗？非常感谢。最佳答案在神经节中显示Spark指标的2个步骤:用神经节支持重建SparkSpark预发行版不附带Ganglia对许可问题的支持，Spark的Apache2.0和Ganglia的LGPL。通常，

神经 hadoop strong ganglia section cluster-computing bigdata

hadoop - AWS - Hadoop 集群 - 节点启动但不工作

我在我的本地服务器中设置了hadoop集群，它运行良好，我正在将其复制到AWS服务器(1个主NN、1个辅助名称节点、7个从属节点)，我能够启动我的hadoop。但是我无法打开像:50070/dfshealth.jsp这样的页面。我已经正确地完成了安装，并且ssh公钥身份验证也与我在本地设置中所做的一样。日志中也没有异常的东西。还有什么我可以调查的吗？最佳答案如果日志正常，则确保打开必要的Hadoop端口。与您的本地设置不同，在AWS中，您应该询问他们要打开的特定端口。在这种情况下，您必须请求打开所需的Hadoophttp和RPC

hadoop section 中设 amazon-web-services hdfs cluster-computing

linux - 转瞬即逝 + hive : CLUSTERED TABLE

我在HIVE中有聚簇表。所有查询都在hive-client中工作。但是我不能用这个表运行任何查询:Query...failed:Hivetableiscorrupt.Itisdeclaredasbeingbucketed,butthefilesdonotmatchthebucketingdeclaration.Thenumberoffilesinthedirectory(0)doesnotmatchthedeclaredbucketcount(8)forpartition:在设置hive.enforce.bucketing=true;之后错误:Query...failed:Hiveta

转瞬即逝转瞬 code section bucketing linux hadoop hive presto

hadoop - pig : optimal number of maps with a 4 node cluster?

我正在使用只有4个节点的hadoopCloudera系统，但磁盘空间很大(200TB)。在我的pig脚本中，我每月加载几个文件，每个文件的大小约为200Gb。我注意到，如果我在我的pig脚本中加载大约一年的数据，Pig会创建大约15k个mappers，整个过程大约需要3个小时(包括reduce步骤)。相反，如果我加载三年的数据(大约5TB)，那么Pig会创建大约30k个mappers，基本上所有节点在处理超过15次后都会变得不健康小时。我是不是遇到了瓶颈？或者我应该使用一些默认选项？我的pig脚本非常基本:我分组，我数数。非常感谢! 最佳答案

cluster optimal strong section code hadoop apache-pig cloudera

hadoop - 如何配置和重新启动在 Azure 上运行的 HDInsight 群集？

具体来说，我想更改在MicrosoftAzure上运行的HDInsight集群中每个节点的最大映射器数量和最大缩减器数量。我使用远程桌面登录到头节点。我编辑了头节点上的mapred-site.xml文件并更改了mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum值。我尝试重新启动头节点，但无法重新启动。我使用start-onebox.cmd和stop-onebox.cmd脚本来尝试启动/停止HDInsight。然后我运行了一个流式mapreduce，将所需数量的reducer传递给had

HDInsight hadoop section mapred cluster-computing configure reboot azure-hdinsight

Hadoop、MapReduce : how to add second node to mapReduce?

我有一个包含2个节点的Hadoop0.2.2集群。在我启动的第一台机器上:名称节点数据节点节点管理器资源管理器JobHistoryServer第二次我也启动了所有这些，除了namenode:数据节点节点管理器资源管理器JobHistoryServer我在两台机器上的mapred-site.xml包含:mapred.job.trackerfirstMachine:54311我在两台机器上的core-site.xml包含:fs.default.namehdfs://firstMachine:9000http://firstMachine:50070的控制台报告2个节点:LiveNodes:

MapReduce code section li hadoop configuration cluster-computing

hadoop - 如何增加 hadoop 中 mapreduce 程序中映射器和缩减器的数量？

我有一个包含3个节点的集群，我想增加mapper和reducer的数量，以便每个节点有5个mapper和reducer。我使用了下面的代码，但它对我不起作用。有帮助吗？mapred-site.xmlmapred.job.trackervhost2456:9001ThehostandportthattheMapReducejobtrackerrunsat.mapred.tasktracker.map.tasks.maximum15mapred.tasktracker.reduce.tasks.maximum15mapred.map.tasks5reduce.map.tasks5

射器 hadoop 跟踪器 lt gt mapreduce cluster-computing reduce