草庐IT

maxwell集群

全部标签

Kubernetes高可用集群二进制部署v1.28.0版本

一、集群环境准备1.1主机规划        主机IP地址主机名主机配置主机角色软件列表192.168.198.144k8s-master12C4Gmasterkube-apiserver、kube-controller-manager、kube-scheduler、etcd、kubectl192.168.198.145k8s-master22C4Gmasterkube-apiserver、kube-controller-manager、kube-scheduler、etcd、kubectl192.168.198.146k8s-master32C4Gmasterkube-apiserver、k

hadoop - 为 Spark 集群和 Cassandra 设置和配置 JanusGraph

我在一台机器上运行JanusGraph(0.1.0)和Spark(1.6.1)。我按照描述进行了配置here.使用SparkGraphComputer访问gremlin-console上的图形时,它始终为空。我在日志文件中找不到任何错误,它只是一个空图。是否有人将JanusGraph与Spark一起使用并且可以分享他的配置和属性?使用JanusGraph,我得到了预期的输出:gremlin>graph=JanusGraphFactory.open('conf/test.properties')==>standardjanusgraph[cassandrathrift:[127.0.0.

security - Spark 独立集群的身份验证

我有一个在远程服务器上运行的独立Spark集群,我是Spark的新手。默认情况下,似乎没有身份验证方案保护集群主机的(7077)端口。任何人都可以不受任何限制地简单地向集群提交自己的代码。Sparkdocumentation指出可以使用spark.authenticate.secret参数在独立部署模式下进行身份验证,但并未详细说明应该如何使用它。是否可以使用某种共享secret来阻止任何潜在的攻击者向集群提交任务?谁能解释一下具体是如何配置的? 最佳答案 启用身份验证支持有2个部分:为主人和所有奴隶设置secret在向集群提交作业

hadoop - 如何在多核8节点集群中调度Hadoop Map任务?

我有一个“仅映射”(无缩减阶段)程序。输入文件的大小足以创建7个maptask,我已经通过查看生成的输出(part-000到part006)验证了这一点。现在,我的集群有8个节点,每个节点有8个内核和8GB内存,共享文件系统托管在头节点上。我的问题是,我可以选择仅在1个节点中运行所有7个映射任务,还是在7个不同的从属节点中运行7个映射任务(每个节点1个任务)。如果我可以这样做,那么我的代码和配置文件需要做哪些更改。我尝试仅在我的代码中将参数“mapred.tasktracker.map.tasks.maximum”设置为1和7,但我没有发现任何明显的时间差异。在我的配置文件中它设置为1

r - Ubuntu集群管理

我正在尝试找出一个解决方案来管理一组linux机器(操作系统:Ubuntu,~40个节点。相同的硬件)。这些机器应该是彼此的镜像,安装在一台机器上的软件需要安装在另一台机器上。我的软件需求是hadoop、R和servicemix。所有机器上的R包也需要同步(安装在一台机器上的包需要在所有其他机器上可用)我现在使用的一种解决方案是使用NFS和pssh。我希望有更好/更简单的解决方案,这会让我的生活更轻松一些。任何建议表示赞赏。 最佳答案 两个流行的选择是Puppet来自PuppetLabs和Chef来自OpsCode。另一种可能的机制

hadoop - hadoop 集群应该在相同的硬件上运行吗?

我记得在某处读到过,如果运行Hadoop的机器彼此之间的差异很大,Hadoop的性能会显着下降,但我似乎再也找不到该评论了。我正在考虑在我的团队不直接管理的一组VM上运行Hadoop集群,我需要知道这是否是我应该在我的请求中提出的要求。那么,我应该坚持让我的所有机器都具有相同的硬件,还是可以在不同硬件配置的不同机器上运行?谢谢。 最佳答案 以下论文描述了异构集群如何影响hadoopmap-reduce的性能:Inaheterogeneouscluster,thecomputingcapacitiesofnodesmayvarysig

amazon-web-services - 如何让 Zeppelin 在 EMR 集群上干净地重启?

我正在运行EMR集群并尝试使用Zeppelin笔记本进行数据分析。版本:发布标签:emr-5.2.1Hadoop发行版:Amazon2.7.3hive2.1.0Spark2.0.2飞艇0.6.2我一直遇到Zeppelin在运行查询时挂起的问题,而且我永远无法恢复它。我试过:-重新启动解释器-通过SSH进入主节点并运行zeppelin_daemon.shrestart(已尝试以hadoop/root/zeppelin身份运行,并使用选项reload运行脚本,开始/停止,upstart)每次我使用守护程序shell脚本时,它都会告诉我它已经停止/启动正常,但是当我运行状态时我得到这个:Ze

amazon-ec2 - 在 EC2 集群上安装 Hbase/Hadoop

我知道我可以分拆出一个安装了Hadoop的EC2集群(除非我错了)。Hbase怎么样?我可以预先准备好Hadoop和Hbase吗?或者我需要弄脏我的手吗?如果它不是一个选项,什么是最好的选择?Cloudera显然有一个包含两者的软件包。这是要走的路吗?感谢您的帮助。 最佳答案 hbase有一组ec2脚本,可以让您快速设置并准备好运行。它允许您配置zk服务器和从节点的数量,但我不确定它们在哪些版本中可用。我正在使用0.20.6。设置一些S3/EC2信息后,您可以执行以下操作:/usr/local/hbase-0.20.6/contri

「大数据-0」虚拟机VMware安装、配置、使用、创建大数据集群教程

目录一、下载VMwareWworkstationPro16二、安装VMwareWworkstationPro16三、检查与设置VMware的网卡1.检查2.设置VMware网段四、在VMware上安装Linux虚拟机五、对安装好的虚拟机进行设置1.打开设置2.设置中文3.修改字体大小4.修改终端字体大小5.关闭虚拟机六、创建大数据集群 七、对大数据集群进行配置1.配置三台虚拟机的主机名2.配置固定IP3.设置SSH免密登录4.创建hadoop用户并设置免密登录八、对虚拟机完成JDK环境的部署 1.下载JDK2.将下载好的JDK压缩包上传到虚拟机中九、对虚拟机完成防火墙、SELinux、时间同步

hadoop - 在hadoop集群中,hive应该安装在所有节点上吗?

我是Hadoop/Hive的新手,我刚刚开始阅读文档。有很多关于在集群模式下安装Hadoop的博客。另外,我知道Hive在Hadoop之上运行。我的问题是:Hadoop安装在所有集群节点上。我还应该在所有集群节点上安装Hive还是只在主节点上安装? 最佳答案 不,它不是您安装在工作节点上的东西。Hive是一个Hadoop客户端。只需根据您在Hivesite中看到的说明运行Hive. 关于hadoop-在hadoop集群中,hive应该安装在所有节点上吗?,我们在StackOverflow