草庐IT

Spark-MongoDB

全部标签

mongoDB命令行交互

命令行交互命令行交互一般是学习数据库的第一步,不过这些命令在后续用的比较少,了解即可。角色命令创建角色useadmindb.createUser({"user":"root","pwd":passwordPrompt(),"roles":[{role:"role",db:""}|"root"]})校验用户db.auth("user",passwordPrompt())数据库命令显示所有的数据库showdbs切换到指定的数据库,如果数据库不存在会自动创建数据库use数据库名显示当前所在的数据库db删除当前数据库use库名db.dropDatabase()集合命令创建集合db.createColl

【基本功】Spark常用参数详解

一、Hadoop&Hive&Spark官方文档官网文档永远是最好的指导手册hive1.2.1参数配置官方文档spark2.2参数配置官方文档/sparksql参数配置文档/spark最新版本官方文档hadoop2.7.1参数配置官方文档二、常用Spark参数具体含义 参数分类场景参数公司集群默认值参数含义executor申请&并行度一般需要大数量下,需要提升任务并行度时可以考虑修改这些参数spark.dynamicAllocation.enabledtrue是否开启动态资源分配,平台默认开启,同时强烈建议用户不要关闭。理由:开启动态资源分配后,Spark可以根据当前作业的负载动态申请和释放资源

Spark SQL 每年的1月1日算当年的第一个自然周, 给出日期,计算是本年的第几周

一、问题按每年的1月1日算当年的第一个自然周(遇到跨年也不管,如果1月1日是周三,那么到1月5号(周日)算是本年的第一个自然周,如果按周一是一周的第一天)计算是本年的第几周,那么sparksql如何写?二、分析难点:SparkSQL的DAYOFWEEK函数返回的每周第一天是周日。边界值的处理,即第一周如何判定、第二周从哪天开始计算。对应的伪代码intday_of_week(intday){if(day==7){return1;}else{returnday+1;}}dayofyear=DAYOFYEAR(your_date_column)if(dayofyear7-day_of_week(fi

Hive引擎MR、Tez、Spark

Hive引擎包括:默认MR、Tez、Spark不更换引擎hive默认的就是MR。MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。HiveonSpark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。SparkonHive就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息,sparksql获取到hive的元数据信息之后就可以拿到hive的所有表的数据,接下来就可以通过sparksql来操作hive表中的数据HiveonSpark效率要低于SparkonHive前者只

详解MongoDB 分片策略

MongoDB分片策略MongoDB分片功能可以在多个服务器上分散存储数据集,实现水平扩展。本文档将介绍MongoDB的分片策略以及如何设置分片环境。目录分片概述分片结构分片策略部署分片集群分片原理及其使用场景分片键选择与分片策略优化分片数据库的操作和管理1.分片概述分片是将一个数据集划分为多个部分(分片)并分布在不同服务器上,通过将数据分布在多个服务器上的策略,以实现水平扩展。分片解决了数据量大、单个节点无法承载的问题。在分片架构中,数据被分成多个片段(shard),每个片段存储在一个独立的服务器或服务器集群上。通过将数据分布在多个服务器上,可以在多个节点(分片)上分散读写负载,提供更大规模

spark的安装与部署

目录前言一、spark是什么?二、知识回顾1.启动zookeeper。2.启动hdfs和yarn。3.通过jps查看是否启动成功。4.进入MySQL。5.进入hive之后验证 6.启动hbase.7.查看进程8.进入hbase并测试是否正常三、spark的安装与部署1.安装Scala2.安装与部署spark总结前言为了避免MapReduce框架中多次读写磁盘带来的消耗,以及更充分地利用内存,加州大学伯克利分校的AMPLab提出了一种新的、开源的、类HadoopMapReduce的内存编程模型Spark。一、spark是什么?Spark是一个基于内存的大数据并行处理框架,其最初由加州大学伯克利分

MongoDB 备份与恢复

1.1MongoDB的常用命令mongoexport/mongoimportmongodump/mongorestore    有以上两组命令在备份与恢复中进行使用。1.1.1导出工具mongoexportMongodb中的mongoexport工具可以把一个collection导出成JSON格式或CSV格式的文件。可以通过参数指定导出的数据项,也可以根据指定的条件导出数据。  该命令的参数如下:参数参数说明-h指明数据库宿主机的IP-u指明数据库的用户名-p指明数据库的密码-d指明数据库的名字-c指明collection的名字-f指明要导出那些列-o指明到要导出的文件名-q指明导出数据的过滤

电影评分数据分析案例-Spark SQL

#cording:utf8frompyspark.sqlimportSparkSessionfrompyspark.sql.typesimportIntegerType,StringType,StructTypeimportpyspark.sql.functionsasFif__name__=='__main__':#0.构建执行环境入口对象SparkSessionspark=SparkSession.builder.\appName('movie_demo').\master('local[*]').\getOrCreate()sc=spark.sparkContext#1.读取文件sche

一文看懂Spark中Cache和CheckPoint的区别

目录循循渐进理解使用Cache或者PersistCheckPoint缓存和CheckPoint的区别循循渐进理解wc.txt数据hellojavasparkhadoopflumekafkahbasekafkaflumehadoop看下面代码会打印多少条-------------------------(RDD2)importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectCache{defmain(args:Array[String]):Unit={valsc=newSparkContex

spark3.3.x处理excel数据

环境:spark3.3.xscala2.12.x引用:spark-shell--jarsspark-excel_2.12-3.3.1_0.18.5.jar或项目里配置pom.xml!--https://mvnrepository.com/artifact/com.crealytics/spark-excel-->dependency>groupId>com.crealytics/groupId>artifactId>spark-excel_2.12/artifactId>version>3.3.1_0.18.5/version>/dependency>代码:1、直接使用excel文件第一行作为