$集群

scala - 如何使用 Spark 独立集群在工作节点上管理多个执行程序？

到目前为止，我只在Hadoop集群上使用Spark，并将YARN作为资源管理器。在那种类型的集群中，我确切地知道要运行多少个执行程序以及资源管理是如何工作的。但是，知道我正在尝试使用独立的SparkCluster，我有点困惑。纠正我错误的地方。来自thisarticle，默认情况下，一个工作节点使用该节点的所有内存减去1GB。但我知道通过使用SPARK_WORKER_MEMORY，我们可以使用更少的内存。例如，如果节点的总内存为32GB，但我指定为16GB，那么Sparkworker不会在该节点上使用超过16GB的内存吗？但是执行者呢？假设我想在每个节点上运行2个执行程序，我可以通过在

scala Spark code 心数 section apache-spark hadoop cluster-computing apache-spark-standalone

Hadoop集群，Linux为主，windows 7为从

我想搭建一个hadoop环境，linuxfedora为主，windows7机器为从。这种组合是否可行？如果可行，我是否需要在Windows7中安装cygwin？最佳答案好的做法是不要在Windows上运行hadoop(就这么简单)。你为什么要这么做？如果您想测试某些东西，请使用伪分布式模式(在一台机器上运行所有hadoop服务)另外，我建议使用一些hadoop发行版，例如cloudera。此链接逐步说明了如何设置它。https://ccp.cloudera.com/display/CDH4DOC/CDH4+Installatio

windows Hadoop section https

python - Hadoop 集群 - 在运行作业之前，我是否需要在所有机器上复制我的代码？

这就是让我感到困惑的地方，当我使用wordcount示例时，我将代码保留在master并让他与slave一起做事并且它运行良好但是当我运行我的代码时，它开始在奴隶上失败，给出奇怪的错误，如Traceback(mostrecentcalllast):File"/app/hadoop/tmp/mapred/local/taskTracker/hduser/jobcache/job_201110250901_0005/attempt_201110250901_0005_m_000001_1/work/./mapper.py",line55,infromsrc.utilitiesimportu

python Hadoop apache java mapreduce hadoop-streaming

hadoop - 如何运行计算并查看远程 Hadoop 集群的计算过程？

我有一个java程序，我想从它发送任务(jar)到远程哈多普。我需要将特殊参数传递给jarofcourse。如果计算任务刚刚结束，java程序必须知道这一点。我可以通过hadoopAPI实现吗？我在哪里也可以获得文章或其他东西？最佳答案 Hadoop有一些用于此的API。因此，如果您为Hadoop作业编写Java代码，您可以定义作业特征，例如:job.SetMapperClass(),job.setReducerClass(),job.setPartitionerClass(),job.setInputPath(),等..然后你运

hadoop section job

hadoop - EMR集群如何连接JobTracker

我正在使用ElasticMapReduce集群。我尝试通过链接http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-ssh-tunnel.html连接作业跟踪器、任务跟踪器等Web界面我正在使用putty，但是我无法通过超时错误连接到master-public-dns:9100。如何连接到这些接口(interface)？最佳答案您的代理启用了吗？在您查询之后，我按照macosx的说明进行操作，并且能够让它正常工作。我在firefox中的foxy

JobTracker hadoop section 跟踪器 image ssh emr

hadoop - 如何为现有的 hadoop 集群部署 ambari

正如我在本标题中提到的，我可以跳过为该集群安装hadoop集群的步骤吗？该集群已经存在并且正在使用中？最佳答案 Ambari依靠“堆栈”定义来描述Hadoop集群由哪些服务组成。Hortonworks定义了一个自定义的Ambari堆栈，称为HDP。您可以定义自己的堆栈并使用您想要的任何服务和相应版本。有关定义堆栈和服务的更多信息，请参阅ambariwiki。话虽这么说，但我认为不可能将您预先安装的Hadoop与Ambari一起使用。Ambari用于配置和管理hadoop集群。它跟踪每个堆栈服务的状态，以及每个服务组件的状态。由于您

hadoop 何为 section Ambari 服务组

hadoop - 为什么map数量增加会影响hadoop上的带宽和集群利用率？

最近在看hadoop:thedefinitiveguide这本书，这部分是两个集群使用distcp复制数据，看到评论:“当数据量很大时，有必要限制map数量以限制带宽和集群利用率”我不明白为什么？我认为我们应该利用尽可能宽的带宽来提高集群的效率。那么我们为什么要限制map的数量呢？最佳答案当然有更多的没有。映射器的数量帮助我们实现更高的并行度，但如果它太高，它就会开始成为瓶颈。例如，如果您的映射器比没有的多得多。在你的奴隶上可用的CPU插槽中，大多数映射器将处于等待状态。同样，您可能会耗尽内存并可能面临网络拥塞。此外，创建那么多

hadoop map 射器 section

hadoop - 使用不同集群的 HDFS 时的数据局部性

类似于DatalocalityifHDFSnotused，但特定于HDFS。我们有2个hadoop集群，我们正在向集群AJobTracker提交一个pig作业，它从集群B读取一个大数据集(100GB)并将其连接到集群A的一个小数据集(10行)。b_data=load'hdfs://b-cluster/big.txt'as(customer_id:chararray);a_data=load'hdfs://a-cluster/small.txt'as(customer_id:chararray);j_data=joina_databyacct_idleft,b_databycustome

hadoop HDFS 跟踪器 section data

hadoop - 如何跨集群从hive表复制到hive表？

我有两个具有相同列和数据类型等的配置单元表，我想将数据从一个表复制到不同集群中的另一个表。hive或sqoop是否提供了执行此操作的简单方法？场景:TableAinCluster1TableBinCluster2AppendtableAintoTableBonCluster2 最佳答案实现此目的的一种便捷方法是使用Hive的Import/Export功能。Export命令将表或分区的数据连同元数据一起导出到指定的输出位置。然后可以将此输出位置移动到不同的Hadoop或Hive实例，并使用Import命令从那里导入。

hive hadoop section strong Cluster sqoop

Kubernetes(K8s)使用 kubeadm 方式搭建多 master 高可用 K8s 集群

本篇主要针对上篇文章的单master节点的K8s集群上搭建多master节点集群和LB负载均衡服务器。Kubernetes（K8S）集群搭建基础入门教程多master节点集群搭建示意图虚拟机IP地址：IP操作系统主机名称192.168.2.121centos7.9k8s-master01192.168.2.124centos7.9k8s-master02192.168.2.125centos7.9k8s-node01192.168.2.126centos7.9k8s-node02192.168.2.122centos7.9k8s-nginx01192.168.2.123centos7.9k8s

集群搭建 span class token kubernetes docker 云原生

49 50 515253 54 55