草庐IT

Spark-MongoDB

全部标签

大数据:VMware | Ubuntu | Hadoop | Spark | VMwaretools | Python 安装配置总结

文章目录一.环境概述二.Ubuntu2.1光盘文件2.2创建虚拟机三.Hadoop3.1Sudo3.2SSH3.3JDK3.4hadoop3.5伪分布集群四.VMwaretools4.1安装4.2使用五.Spark5.1scala5.2spark5.3pyspark5.4伪分布式六.Python6.1源代码形式6.1python6.2pip6.3numpy6.2默认python6.3apt方式七.参考博客一.环境概述Linux发行版:Ubuntu虚拟机应用:VMwareWorkstationProHadoop版本:3.1.3|伪分布式集群JDK版本:JDK1.8.0_162Spark版本:2.

大数据学习(23)-hive on mapreduce对比hive on spark

&&大数据学习&&🔥系列专栏:👑哲学语录:承认自己的无知,乃是开启智慧的大门💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞HiveonSpark和HiveonMapReduce是两种不同的Hive运行环境,它们分别使用ApacheSpark和ApacheMapReduce作为底层的计算引擎。HiveonSpark:HiveonSpark是使用ApacheSpark作为计算引擎的Hive版本。它利用Spark的分布式计算和内存计算能力,提高了Hive的查询性能和响应时间。与传统的HiveonMapReduce相比,HiveonSpark可以更好地利用集群资源,提高查询

新手Mongodb下载安装部署教程Windows平台(巨详细教程!!!)

前言MongoDB是一个开源、跨平台的数据库。不同的操作系统平台上,部署MongoDB也会有所不同。本文是基于Windows来对MongoDB的部署。一、下载MongoDB官网下载地址:DownloadMongoDBCommunityServer|MongoDBVersion选择:稳定版4.4.2Mongo的版本分为稳定版和开发版,其中,稳定版是经过充分测试的版本,具有稳定性和可靠性;而开发版是未得到充分测试的版本,不适合初学者。所以我选择的稳定版本4.4.2。稳定版与开发版区分在于版本号(类似于x.y.z),版本号中的第一位数字是主版本号;第二位数字是用于区分是稳定版还是开发版,偶数为稳定版

Hadoop+Hive+Spark+Hbase开发环境练习

1.练习一1.数据准备在hdfs上创建文件夹,上传csv文件[root@kb129~]#hdfsdfs-mkdir-p/app/data/exam查看csv文件行数[root@kb129~]#hdfsdfs-cat/app/data/exam/meituan_waimai_meishi.csv|wc-l2.分别使用RDD和SparkSQL完成以下分析(不用考虑数据去重)开启sparkshell[root@kb129~]#spark-shell(1)加载csv文件,创建RDDscala>valfileRdd=sc.textFile("/app/data/exam/meituan_waimai_m

Spark读取Excel文件

文章目录一、excel数据源转成csv二、Spark读取csv文件(一)启动spark-shell(二)Spark读取csv生成df(三)查看df内容三、Spark读取excel文件(一)准备spark-excel_2.12-3.3.1_0.18.5.jar(二)启动sparkshell(三)Spark读取excel文件生成df(四)查看df的内容四、拓展练习(一)在SparkShell里读取excel文件(二)编写Spark程序读取excel文件1、项目里导入spark-excel包

Spark集群架构和核心组件介绍

目录一.Spark简介:二.ApacheSpark特点: 三.集群架构:3.1术语释义:3.2集群架构执行过程:3.3集群核心组件: 3.3.1Driver:3.3.2Executor:3.3.3Master&Worker:3.3.4ApplicationMaster:四.Spark核心组件:4.1SparkCore4.2SparkSQL4.3SparkStreaming4.4 SparkMLlib4.5SparkGraphX五.核心概念:5.1Executor与Core 5.2并行度:5.3有向无环图(DAG) 5.4提交过程5.5YarnClient模式5.6YarnCluster模式一.

【Spark】配置参数关系-重要

并行度数量并行度指所有Executor可以同时执行的Task数,每个Executor中的一个Core(线程,虚拟核数)同时只能执行一个Task,所以 最大并行度=Executor数量*每个Executor的Core数;eg:资源配置10个Executor节点,每个节点2个Core,那么同一时间可以并行计算的task数为20,如果RDD有100个分区,那么需要5轮计算完毕,如果RDD有2个分区,那么计算时只使用2个Core,其余18个Core空转,浪费资源,所以Spark调优中会通过增大RDD分区数,增大任务并行度来提高效率。暂时的结论,每个Executor由若干core组成,每个Executo

大数据毕业设计选题推荐-设备环境监测平台-Hadoop-Spark-Hive

✨作者主页:IT毕设梦工厂✨个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目文章目录一、前言二、开发环境三、系统界面展示四、部分代码设计五、论文参考六、系统视频结语一、前言随着工业4.0和物联网(IoT)的快速发展,设备环境监测平台在各行各业中的应用越来越广泛。课题的产生基于对设备环境进行实时、便捷的监测和管理,以提高设备利用率,减少设备故障率,优化维修流程,降低运营成本,增强企业的竞争

hive on spark集群环境部署(彻底摆脱做毕设没环境)

#所需安装包下载路径(1)mysqlrpm包路径:https://downloads.mysql.com/archives/community/connect路径:https://downloads.mysql.com/archives/c-j/(2)hivehttps://mirrors.huaweicloud.com/apache/hive/hive-3.1.3/(3)sparkhttps://mirrors.huaweicloud.com/apache/spark/spark-2.3.0/1.mysql安装部署1.1安装包下载 1.1.1所需下载的rpm包 1.1.2所需驱动包下载1.2

Spark_SQL-DataFrame数据写出以及读写数据库(以MySQl为例)

                 一、数据写出    (1)SparkSQL统一API写出DataFrame数据二、写出MySQL数据库一、数据写出    (1)SparkSQL统一API写出DataFrame数据    统一API写法:    常见源写出:#cording:utf8frompyspark.sqlimportSparkSessionfrompyspark.sql.typesimportStructType,IntegerType,StringTypeimportpyspark.sql.functionsasFif__name__=='__main__':spark=SparkS