草庐IT

hadoop - Hadoop 集群节点数

全部标签

java - 如何在不使用 spark-submit 的情况下将 java 程序中的 spark 作业提交到独立的 spark 集群?

我正在使用spark执行一些计算,但希望它从java应用程序提交。使用spark-submit脚本提交时它可以正常使用。有人试过这样做吗?谢谢。 最佳答案 不要忘记将包含您的代码的胖JAR添加到上下文中。valconf=newSparkConf().setMaster(...).setAppName(...).setJars("/path/to/code.jar")valsc=newSparkContext(conf) 关于java-如何在不使用spark-submit的情况下将java

portainer管理远程docker和docker-swarm集群

使用前请先安装docker和docker-compose,同时完成docker-swarm集群初始化一、portainer-ce部署部署portainer-ce实时管理本机docker,使用docker-compose一键拉起docker-compose.ymlversion:'3'services:portainer:container_name:portainer#image:portainer/portainerimage:6053537/portainer-ce#image:portainer/portainer-cecommand:-Hunix:///var/run/docker.s

大数据开发(Hadoop面试真题-卷二)

大数据开发(Hadoop面试真题)1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点?如何解决这些问题?2、请解释一下HDFS架构中NameNode和DataNode之间是如何通信的?3、请解释一下Hadoop的工作原理及其组成部分?4、HDFS读写流程是什么样子?5、Hadoop中fsimage和edit的区别是什么?6、Spark为什么比MapReduce更快?7、详细描述一下Hadoop高可用的原理?8、介绍下Hadoop9、说下Hadoop生态圈组件及其作用10、Hadoop1.x,2.x,3.x的区别?1、在大规模数据处理过程中使用编写MapReduce程序存在什么

【Linux】Linux上的一些软件安装与环境配置(Centos7配置JDK、Hadoop)

文章目录安装JDK+配置环境变量1.卸载已安装的JDK查询已安装的jdk列表删除已经安装的jdk2.上传安装包3.创建/usr/local/java文件夹4.将jdk压缩包解压到/usr/local/java目录下5.配置jdk的环境变量6.让配置文件生效7.校验8.拍个快照吧,免得后面哪里错了还得全部重来安装Hadoop1.将hadoop-2.7.7.tar.gz安装包通过xftp传到CentOS7上2.创建/hadoop文件夹3.将hadoop压缩包解压到/haddop的目录下4.配置hadoop环境变量在/etc/profile文件的尾部添加以下内容:使配置文件生效5.测试是否安装成功安

Hadoop、HDFS、Hive、Hbase之间的关系

Hadoop:是一个分布式计算的开源框架HDFS:是Hadoop的三大核心组件之一Hive:用户处理存储在HDFS中的数据,hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序Hbase:是一款基于HDFS的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等Hive与HBase的区别与联系1、区别Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive

java - 有 Java 集群方面的经验吗?

想听听人们关于Java集群(即实现HA解决方案)的经验。又名。terracotta、JGroups等。它不一定是网络应用程序。拥有编写自定义独立服务器的经验也很棒。更新:我会更具体一些->对Web应用程序集群不那么感兴趣(除非它可以被拉出并独立运行)。我知道它有效。但我们需要的不仅仅是session集群。从编程的简易性、支持的拓扑结构(即单个数据中心与WAN上的数据中心)、支持的节点数量方面检查解决方案。面临的问题,解决方法。目前我正在Terracotta和JGroups上做一些POC(概念验证)工作,看看它是否值得为我们的应用程序(它是独立的,在Web容器之外)付出努力。

Kafka 社区KIP-382中文译文(MirrorMaker2/集群复制/高可用/灾难恢复)

原文地址:KIP-382:MirrorMaker2.0-ApacheKafka-ApacheSoftwareFoundation译者:对于Kafka高可用的课题,我想每个公司都有自己的方案及思考,这是一个仁者见仁智者见智的命题,而社区给出了一个较大的特性,即MirrorMaker2.0,不论是准备做高可用还是单纯的数据备份,都不能绕过这个重大特性。而关于MirrorMaker2.0的文章,网络上真是多如牛毛,质量也是参差不齐,而能够将这个特性完整描述出来的,非社区的此篇设计稿莫属,也因此有了翻译此文的初衷。ps:有任何kafka问题欢迎评论、私信交流。本人VX:likangning9背景/动机

大数据毕业设计hadoop+spark+hive微博预警系统 微博数据分析可视化大屏 微博情感分析 微博爬虫 微博大数据 微博推荐系统 微博预测系统 计算机毕业设计 知识图谱 机器学习 深度学习

北京邮电大学世纪学院毕业设计(论文)开题报告      题  目       基于深度学习的微博舆情分析及预测系统                                   学生姓名                    学   号                 专业名称                    年   级    2020级     指导教师       邓玉洁      职   称    副教授      所在系(院)           计算机科学与技术                                2023  年12 月11 日说      明1

Elasticsearch 8.X 集群 SSL 证书到期了,怎么更换?

1、SSL证书过期问题如上两个问题是近期社群讨论比较多的问题,涉及8.X、7.X等版本。在Elasticsearch集群中,使用SSL证书对数据传输进行加密是一种常见的安全措施。正如《一本书讲透Elasticsearch》所讲的一样,Elasticsearch8.0之后,安全设置已经成为默认配置,除非手动禁用。。但,随着时间的推移,这些SSL证书会到期,需要进行更换以保持集群的安全性。本文将详细介绍如何为Elasticsearch8.X集群更换自创建的SSL证书,确保数据传输的安全性不受影响。2、安全问题务必引起高度重视不用多讲,Kibana的默认端口(5601)未加密码保护而暴露在公网上,可

ruoyi+Hadoop+hbase实现大数据存储查询

前言有个现实的需求,数据量可能在100亿条左右。现有的数据库是SQLServer,随着采集的数据不断的填充,查询的效率越来越慢(现有的SQLServer查询已经需要数十秒钟的时间),看看有没有优化的方案。考虑过SQLServer加索引、分区表、分库分表等方案,但数据量增长太快,还是很快就会遇到瓶颈,因此需要更优化的技术。在众多的NOSQL和大数据技术之下,针对此场景,主要考虑了两种方案:MongoDB:json文档型数据库,可以通过集群拓展。但更适合列比较复杂的场景快速查询。Hadoop:大数据领域的瑞士军刀,周边有很多相配套的工具可以使用,后期拓展性较强。因为此需求只是简单的根据编码找到对应