1.下载安装Robo3T访问网页Robo3T|Free,open-sourceMongoDBGUI(formerlyRobomongo),下载Windows系统下的Robo3T并安装2.启动Robo3T打开Robo3T,出现最终用户许可协议同意即可,然后进入以下界面。Robo3T启动成功的界面3.连接MongoDB点击create,添加要连接的MongoDB的IP地址和端口号,如图配置连接MongoDB连接输入后点击save,然后点击connect,连接MongoDB,连接成功后出现如图连接成功注:如果连接失败如图虚拟机未联网报错那一定是虚拟机网没开打开即可如果出现以下错误:mongodb启动
用一个统一的数据抽象对象,来实现分布式框架中的计算功能这个数据对象就是rddRDD定义弹性分布式数据集,spark中最基本的数据抽象代表一个不可变、可分区、元素可并行计算的集合Resilient:RDD中的数据可存储在内存或者硬盘中Distributed:数据是分布式的,可用于分布式计算Dataset:数据集合,用于存放数据特性RDD是有分区的分区是RDD最小的存储单位分区是物理概念多个物理的分区组成了一个抽象的RDD可以用glom()API查看分区计算方法会作用到每一个分区上RDD之间是有相互依赖的关系的每个新产生的RDD都需要依赖于之前的RDDRDD之间是迭代计算的,会形成一个依赖链条KV
ApacheSpark是一个基于内存的分布式计算框架,旨在处理大规模数据集。它通过提供高效的数据处理和分析功能,帮助用户快速处理大量数据,并提供实时和批量数据处理。在本文中,我们将探讨ApacheSpark的基本概念以及在大数据分析中的应用。ApacheSpark的基本概念在介绍ApacheSpark的基本概念之前,我们先来了解一下分布式计算的概念。分布式计算是指将计算任务分散到多台计算机上进行处理。它可以提高计算任务的效率和存储量,因为它可以同时使用多台计算机来处理任务,并将数据存储在不同的计算机上。分布式计算的一个关键概念是并行处理。并行处理是指将一个大任务分解成多个小任务,然后将这些小任
MongoDB中四种连接方式的比较详解目录StandaloneReplicaSetShardedClusterAtlasDeploymentStandalone1.定义Standalone是MongoDB中最简单的连接方式,表示单个独立的MongoDB服务器实例。2.原理Standalone模式下,只有一个MongoDB服务器实例,数据存储在单个节点上,没有复制或分片。它适用于开发和测试环境,以及小型应用程序。3.适用场景单个开发者或小团队的开发和测试环境。小型应用程序,数据量较小。4.示例代码constMongoClient=require('mongodb').MongoClient;co
背景最近在做Spark版本的升级(由spark3.1升级到spark3.5),其实单纯从spark升级涉及到的log4j来说,并没有什么能够记录的,但是由于公司内部做了Spark的serveless,把spring和spark混在了一起,所以导致了不可预见的问题分析我们Spring用的是5.2.6.RELEASE版本,由于spark用的是logback作为日志的具体实现,而Spark在3.1和spark3.5是采用了不同的日志具体实现:在spark3.1中采用的是log4j1(log4j+slf4j-log4j2),spark3.5中采用的是log42(log4j-core+log4j-api
文章目录Hadoop安装Hive安装HiveOnSpark与SparkOnHive区别HiveOnSparkSparkOnHive部署HiveOnSpark查询Hive对应的Spark版本号下载Spark解压Spark配置环境变量指定Hadoop路径在Hive配置Spark参数上传Jar包并更换引擎测试HiveOnSparkYarn资源分配设置解决依赖冲突问题重编译源码前言:本篇文章在已经安装Hadoop3.3.4与Hive3.1.3版本的基础上进行,与笔者版本不一致也没有关系,按照步骤来就行了。如果你不想使用低版本的Spark(例如:Spark2.x系列),请直接跳转到本文目录【重编译源码】
zookeeper单机安装与配置一、zookeeper的安装1.上传zookeeper-3.4.5.tar.gz到/tools目录下2.解压安装zookeeper到/training中tar-zvcfzookeeper-3.4.5.tar.gz-C/opt/soft_installed/zookeeper-3.4.53.配置环境变量vim/home/lh/.bashrc#添加内容如下exportZK_HOME=/opt/soft_installed/zookeeper-3.4.5exportPATH=$PATH:$ZK_HOME/bin4.在zookeeper安装路径下创建tmp目录,用于存储
【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive文章目录一、mysql全量导入hive[分区表]需求介绍:二、mysql增量导入hive1.增量导入的第一种实现方法2.另一种方法是时间字段3.dataX脚本三、利用Python自动生成Datax的json脚本1.创建mysql和hive数据库2.修改python脚本里面的密码(2处)和hdfs端口3.运行python脚本4.将生成的json文件上传到linux5.编写shell脚本b.sh6.运行shell一、mysql全量导入hive[分区表]需求介绍:本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时
文章目录前言1.安装数据库2.内网穿透2.1安装cpolar内网穿透2.2创建隧道映射2.3测试随机公网地址远程连接3.配置固定TCP端口地址3.1保留一个固定的公网TCP端口地址3.2配置固定公网TCP端口地址3.3测试固定地址公网远程访问前言MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非
目录一、理论1.MongoDB用户管理2.MogoDB库管理3.MogoDB集合管理二、实验1.MongoDB用户管理2.MogoDB库管理3.MogoDB集合管理三、问题1.不显示新创建的数据库2.插入数据报错3.删除指定数据库报错一、理论1.MongoDB用户管理(1) 内置角色数据库用户角色:read、readWrite;数据库管理角色:dbAdmin、dbOwner、userAdmin;集群管理角色:clusterAdmin、clusterManager、clusterMonitor、hostManager;备份恢复角色:backup、restore;所有数据库角色:readAnyDa