草庐IT

cluster-computing

全部标签

python - Mapreduce:数据到节点的复杂分布

我在hadoop方面没有实际经验--我只学了一些理论。我面临的任务是使用集群处理一个巨大的CSV文件(比内存大得多),我想出了以下过程。假设csv文件包含3亿行,我将1-1亿行称为第1部分,将101-2亿行称为第2部分,将201-3亿行称为第3部分。(这只是一个例子,因为在实践中数据必须被分割成更多的部分以便在内存中处理)我想按以下方式将数据分发到节点上。节点号数据获取节点1只有第1部分节点2只有第2部分节点3只有第3部分节点4第1部分和第2部分节点5第2部分和第3部分节点6第1部分和第3部分您会看到一些节点只获取数据的一部分,而一些节点获取2部分数据。根据这一点,两个函数之一应用于每

hadoop - 星火集群启动问题

我是spark的新手,正在尝试设置spark集群。我做了以下事情来设置和检查spark集群的状态,但不确定状态。我尝试在浏览器中查看master-ip:8081(8080,4040,4041),但没有看到任何结果。首先,我设置并启动了hadoop集群。JPSgives:2436SecondaryNameNode2708NodeManager2151NameNode5495Master2252DataNode2606ResourceManager5710Jps问题(有必要启动hadoop吗?)在Master/usr/local/spark/conf/slaveslocalhostslav

hadoop - 哪个最好 : Apache Ambari cluster on Physical system with 5 Machine or install on virtual machine with diffrent 5 VM?

您好,我正在做我的一个项目,我创建了5台机器的虚拟机,它在开发环境中运行良好,但我对虚拟机集群好还是需要使用物理系统集群有一些困惑。 最佳答案 Hadoop是为物理系统开发的,但它会在虚拟环境中发挥不同程度的成功,这取决于具体的环境。这实际上是hadoop邮件列表上的一个非常常见的问题,Hadoop开发人员在HadoopWiki文章中专门解决了这个问题:VirtualHadoop.本文介绍了每种方法的优点/缺点,并讨论了云部署。您应该阅读本文,看看您属于哪种部署方案,并评估您的VM设置中可能存在的问题。

hadoop - Spark : Execute python script with Spark based on Hadoop Multinode

我正在寻找基于HadoopMultinodes的Spark使用,我对我的集群模式pythonic脚本有疑问。我的配置:我进入了我的Hadoop集群:1个名称节点(主节点)2个数据节点(从节点)所以我想在Python中执行我的脚本以使用这个集群。我知道Spark可以用作独立模式,但我想使用我的节点。我的python脚本:这是一个非常简单的脚本,可以用来计算文本中的字数。importsysfrompysparkimportSparkContextsc=SparkContext()lines=sc.textFile(sys.argv[1])words=lines.flatMap(lambda

apache-spark - Spark 与 Hadoop yarn : Use the entire cluster nodes

我将Spark与HDFSHadoop存储和Yarn结合使用。我的集群包含5个节点(1个主节点和4个从节点)。主节点:48GbRAM-16个CPU内核从属节点:12GbRAM-16个CPU内核我正在执行两个不同的进程:WordCount方法和带有两个不同文件的SparkSQL。一切正常,但我在问一些问题,也许我不太了解Hadoop-Spark。第一个例子:WordCount我执行了WordCount函数并在两个文件(part-00000和part-00001)中得到了结果。part-00000的可用性是slave4和slave1,part-00001的可用性是slave3和slave4。

hadoop - 心跳到 <hostname> :7182 failed during Cloudera Installation on 3 node cluster

我正在使用ClouderaManager创建一个3节点的cloudera集群。我遵循了cloudera文档:[1]https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_wkg_kpb_pn登录到cloudera管理器并输入3个节点的主机名后,当我尝试安装它时会出现以下消息:安装失败。无法从代理接收心跳。确保主机的主机名配置正确。确保端口7182可在ClouderaManagerServer上访问(检查防火墙规则)。确保正在添加的主机上未使用端口9

performance - 多节点上的h2o和hadoop上的h2o有什么区别?

在H2O网站上,它说H2O’scorecodeiswritteninJava.InsideH2O,aDistributedKey/Valuestoreisusedtoaccessandreferencedata,models,objects,etc.,acrossallnodesandmachines.ThealgorithmsareimplementedontopofH2O’sdistributedMap/ReduceframeworkandutilizetheJavaFork/Joinframeworkformulti-threading.这是否意味着如果H2O在单节点集群上运行,

Hadoop集群-重启后Hive无法启动

我有5个节点的hadoop集群正在运行。Hive运行良好,可以创建表、添加数据等。然后尝试重新启动所有5个节点,现在Hive无法启动。使用MySql作为Metastore。可能是什么问题以及如何解决?尝试启动hive时的日志:Exceptioninthread"main"java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.Ses

Hadoop - Cloudera MRV1 集群规划 - 理想集群的最小节点数是多少,它看起来如何?

我手动安装了一个具有以下配置的三节点集群:Master/SlaveNode0-NameNode,SecondaryNameNode,JobTracker,HMaster,DataNode,TaskTracker,HRegionServer,HiveMetaStore,DatabaseforHive/Sqoop,HiveServer2,HCatalog,OozieServer,Zookeeper,Oozie-client,Hive-client,pig-client,M/Rclienttools,SqoopSlaveNode1-DataNode,TaskTracker,HRegionSe

hadoop - Hive 中字符串的 CLUSTER BY

我在Hive中有以下查询CREATETABLEbucketed_users(idINT,nameSTRING,FlatNumberINT)CLUSTEREDBY(id)INTO4BUCKETS;是否只能在INT列(也在FlatNumber)上进行聚类,或者我们可以定义自定义函数,该函数将提供划分为聚类桶的逻辑? 最佳答案 可以在任何列上创建集群/桶,对于非数字列,HIVE将使用HASH(col)%"numberofbuckets"来查找记录的桶。 关于hadoop-Hive中字符串的CL