cluster-computing

python - Mapreduce:数据到节点的复杂分布

我在hadoop方面没有实际经验--我只学了一些理论。我面临的任务是使用集群处理一个巨大的CSV文件(比内存大得多)，我想出了以下过程。假设csv文件包含3亿行，我将1-1亿行称为第1部分，将101-2亿行称为第2部分，将201-3亿行称为第3部分。(这只是一个例子，因为在实践中数据必须被分割成更多的部分以便在内存中处理)我想按以下方式将数据分发到节点上。节点号数据获取节点1只有第1部分节点2只有第2部分节点3只有第3部分节点4第1部分和第2部分节点5第2部分和第3部分节点6第1部分和第3部分您会看到一些节点只获取数据的一部分，而一些节点获取2部分数据。根据这一点，两个函数之一应用于每

hadoop - 星火集群启动问题

我是spark的新手，正在尝试设置spark集群。我做了以下事情来设置和检查spark集群的状态，但不确定状态。我尝试在浏览器中查看master-ip:8081(8080,4040,4041)，但没有看到任何结果。首先，我设置并启动了hadoop集群。JPSgives:2436SecondaryNameNode2708NodeManager2151NameNode5495Master2252DataNode2606ResourceManager5710Jps问题(有必要启动hadoop吗？)在Master/usr/local/spark/conf/slaveslocalhostslav

hadoop 星火 spark code master apache-spark cluster-computing iptables

hadoop - 哪个最好 : Apache Ambari cluster on Physical system with 5 Machine or install on virtual machine with diffrent 5 VM?

您好，我正在做我的一个项目，我创建了5台机器的虚拟机，它在开发环境中运行良好，但我对虚拟机集群好还是需要使用物理系统集群有一些困惑。最佳答案 Hadoop是为物理系统开发的，但它会在虚拟环境中发挥不同程度的成功，这取决于具体的环境。这实际上是hadoop邮件列表上的一个非常常见的问题，Hadoop开发人员在HadoopWiki文章中专门解决了这个问题:VirtualHadoop.本文介绍了每种方法的优点/缺点，并讨论了云部署。您应该阅读本文，看看您属于哪种部署方案，并评估您的VM设置中可能存在的问题。

with Physical section Hadoop 物理系 vagrant virtual-machine ambari bigdata

hadoop - Spark : Execute python script with Spark based on Hadoop Multinode

我正在寻找基于HadoopMultinodes的Spark使用，我对我的集群模式pythonic脚本有疑问。我的配置:我进入了我的Hadoop集群:1个名称节点(主节点)2个数据节点(从节点)所以我想在Python中执行我的脚本以使用这个集群。我知道Spark可以用作独立模式，但我想使用我的节点。我的python脚本:这是一个非常简单的脚本，可以用来计算文本中的字数。importsysfrompysparkimportSparkContextsc=SparkContext()lines=sc.textFile(sys.argv[1])words=lines.flatMap(lambda

Spark Multinode 2018 1521023754917 INFO hadoop apache-spark pyspark cluster-computing

apache-spark - Spark 与 Hadoop yarn : Use the entire cluster nodes

我将Spark与HDFSHadoop存储和Yarn结合使用。我的集群包含5个节点(1个主节点和4个从节点)。主节点:48GbRAM-16个CPU内核从属节点:12GbRAM-16个CPU内核我正在执行两个不同的进程:WordCount方法和带有两个不同文件的SparkSQL。一切正常，但我在问一些问题，也许我不太了解Hadoop-Spark。第一个例子:WordCount我执行了WordCount函数并在两个文件(part-00000和part-00001)中得到了结果。part-00000的可用性是slave4和slave1，part-00001的可用性是slave3和slave4。

apache-spark cluster section code strong hadoop

hadoop - 心跳到 <hostname> :7182 failed during Cloudera Installation on 3 node cluster

我正在使用ClouderaManager创建一个3节点的cloudera集群。我遵循了cloudera文档:[1]https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_wkg_kpb_pn登录到cloudera管理器并输入3个节点的主机名后，当我尝试安装它时会出现以下消息:安装失败。无法从代理接收心跳。确保主机的主机名配置正确。确保端口7182可在ClouderaManagerServer上访问(检查防火墙规则)。确保正在添加的主机上未使用端口9

Installation amp section cloudera hadoop cloudera-cdh cloudera-manager

performance - 多节点上的h2o和hadoop上的h2o有什么区别？

在H2O网站上，它说H2O’scorecodeiswritteninJava.InsideH2O,aDistributedKey/Valuestoreisusedtoaccessandreferencedata,models,objects,etc.,acrossallnodesandmachines.ThealgorithmsareimplementedontopofH2O’sdistributedMap/ReduceframeworkandutilizetheJavaFork/Joinframeworkformulti-threading.这是否意味着如果H2O在单节点集群上运行，

performance h2o section hadoop machine-learning cluster-computing

Hadoop集群-重启后Hive无法启动

我有5个节点的hadoop集群正在运行。Hive运行良好，可以创建表、添加数据等。然后尝试重新启动所有5个节点，现在Hive无法启动。使用MySql作为Metastore。可能是什么问题以及如何解决？尝试启动hive时的日志:Exceptioninthread"main"java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.Ses

Hadoop Hive java apache centos cluster-computing

Hadoop - Cloudera MRV1 集群规划 - 理想集群的最小节点数是多少，它看起来如何？

我手动安装了一个具有以下配置的三节点集群:Master/SlaveNode0-NameNode,SecondaryNameNode,JobTracker,HMaster,DataNode,TaskTracker,HRegionServer,HiveMetaStore,DatabaseforHive/Sqoop,HiveServer2,HCatalog,OozieServer,Zookeeper,Oozie-client,Hive-client,pig-client,M/Rclienttools,SqoopSlaveNode1-DataNode,TaskTracker,HRegionSe

小节点数 client HRegionServer Oozie hadoop cluster-computing cloudera

hadoop - Hive 中字符串的 CLUSTER BY

我在Hive中有以下查询CREATETABLEbucketed_users(idINT,nameSTRING,FlatNumberINT)CLUSTEREDBY(id)INTO4BUCKETS;是否只能在INT列(也在FlatNumber)上进行聚类，或者我们可以定义自定义函数，该函数将提供划分为聚类桶的逻辑？最佳答案可以在任何列上创建集群/桶，对于非数字列，HIVE将使用HASH(col)%"numberofbuckets"来查找记录的桶。关于hadoop-Hive中字符串的CL

CLUSTER hadoop section strong code hive

10 11 121314 15 16