草庐IT

Spark-MongoDB

全部标签

spark dynamicAllocation详解及使用

我们在提交Spark应用时,一般都会指定executor数量,但我们的任务中有大的任务、也会有小的任务。这时候,我们在处理ETL的时候,会有几种选择,例如:分配一个比较大的资源,例如:请求较多的executor,然后在这之上运行作业。另外一种,为了让ETL运行彼此隔离,每个应用都会分配资源。Spark应用中真正执行task的组件是Executor,可以通过spark.executor.instances指定Spark应用的Executor的数量。在运行过程中,无论Executor上是否有task在执行,都会被一直占有直到此Spark应用结束。在Spark集群中的一个常见场景是,随着业务的不断发

在Linux系统中实现容器化的大规模数据分析平台:Hadoop和Spark

在Linux系统中实现容器化的大规模数据分析平台,我们可以利用Hadoop和Spark这两个强大的开源工具。Hadoop是一个分布式计算框架,适用于处理大规模数据集。它提供了分布式文件系统(HDFS)和分布式计算模型(MapReduce),可以将任务划分为多个子任务,并运行在多个节点上,充分利用集群资源进行并行计算。Spark是一个快速且通用的分布式计算引擎,比HadoopMapReduce更快。它支持内存计算,可以在内存中缓存数据,从而大幅度加快计算速度。同时,Spark还提供了各种API和工具,方便进行数据处理、机器学习和图计算等操作。Docker化Hadoop1、准备Docker镜像:首

Navicat 操作MongoDB篇(基本增删改查

创建集合新建集合 点击保存 给集合起名字 创建一个查询新增--新增数据2种方式db.mongodb_test.save({"name":"stringBoot"})db.mongodb_test.insert({"name":"mangogood"});db.mongodb_test.save({"name":"mangogood",type:"工具书"});--新增多条数据db.mongodb_test.insert([{name:"stringboot",age:17,sex:"男"},{name:"srting",age:18,sex:"女"},{name:"stringmvc",age

Apache Spark 练习五:使用Spark进行YouTube视频网站指标分析

一、源数据本章所分析的数据来自于SimonFraser大学公开的YouTube视频网站的视频数据(https://netsg.cs.sfu.ca/youtubedata/)。数据包含两张表。第一张为视频表,记录了研究人员爬取的视频的元数据信息,具体包括以下字段:字段备注详细描述videoid视频唯一id11位字符串uploader视频上传者上传视频的用户名Stringage视频年龄视频在平台上的整数天category视频类别上传视频指定的视频分类length视频长度整形数字标识的视频长度views观看次数视频被浏览的次数rate视频评分满分5分ratings流量视频的流量,整型数字conmen

MongoDB助力腾讯游戏优化游戏开发体验

客户简介腾讯游戏提倡超级数字场景连接数亿游戏玩家作为“超级数字场景”理念的倡导者和实践者,腾讯游戏致力于为用户创造高品质数字生活体验,为产业和社会发展创造更多建设性的价值。腾讯游戏为全球知名的游戏开发与服务运营商,在全球连接超过8亿的用户。在开放发展的模式下,腾讯游戏采取自主研发和多元化的外部合作相结合的方式,在网络游戏众多细分市场领域形成专业化布局,打造覆盖全品类的产品阵营,为全球网络游戏玩家提供休闲游戏平台、大型网游、中型休闲游戏、桌面游戏、对战平台五大类。另外,腾讯游戏与全球顶级游戏开发公司建立深度合作,将国外优质的前沿产品体验带到中国,也将中国的游戏带向世界。2021年3月,腾讯游戏针

机器学习(一)Spark机器学习基础

文章目录1.Spark机器学习基础1.0机器学习和大数据的区别和联系1.1机器学习引入1.2机器学习三次浪潮1.3人工智能领域基础概念区别1.3.1人工智能、机器学习、深度学习关系1.3.2数据分析、数据挖掘基本概念区别1.3.3各技术交叉点后记1.Spark机器学习基础l学习目标掌握机器学习与大数据的区别和联系掌握机器学习概念掌握机器学习如何构建机器学习模型过程1.0机器学习和大数据的区别和联系首先,回顾大数据的4V特征:1.数据量大TB-PB-ZBHDFS分布式文件系统2.数据种类多结构化数据-Mysql为主的存储和处理非结构化数据-文本、图像、音频-HDFS、MR、Hive半结构化数据-

Spark基础和RDD

目录一、SparkOnYarn两种部署方式二、spark-submit命令三、PySpark程序与Spark交互流程1.clientonSpark集群2.clusteronSpark集群3.clientonYarn集群4.clusteronYarn集群四、RDD的基本介绍1.什么是RDD2.RDD的五大特性3.RDD的五大特点五、如何构建RDD六、RDD分区数量如何确定一、SparkOnYarn两种部署方式        当我们通过spark-submit方式来提交Spark应用到Yarn或者Spark集群的时候,提供了两种部署模式:client和cluster。client模式和cluste

【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发

注意:该项目只展示部分功能,如需了解,评论区咨询即可。本文目录1设计背景2设计意义3系统展示3.1页面展示3.2视频展示4更多推荐5部分功能代码1设计背景在当今数字化时代,电商行业成为全球商业生态系统的关键组成部分,电商平台已经深入各行各业,影响了人们的购物方式和消费习惯。随着互联网技术的不断发展,电商平台产生了大量的用户数据,包括点击、购买、搜索、浏览历史等行为数据。这些数据蕴含着宝贵的商业洞察,可用于了解用户行为、产品趋势、广告效果以及提高用户体验。然而,这些数据规模庞大,多样性丰富,传统数据分析方法已经无法满足电商企业对数据的需求。这就是为什么开发基于Hadoop大数据技术的电商平台用户

MongoDB索引优化指南:提升查询性能的关键

MongoDB是一种非关系型数据库,具有高度灵活性和可扩展性。在处理大量数据时,索引的优化是提升查询性能的关键。下面将介绍一些MongoDB索引优化的指南,帮助用户更好地利用索引来提高查询性能。一、选择适当的索引类型1、单字段索引:最基本的索引类型,适用于单个字段的查询。通过对经常被查询的字段创建单字段索引,可以显著提高查询性能。2、多字段索引:对多个字段同时创建索引,适用于需要同时匹配多个字段的查询条件。多字段索引可以减少查询的数据集大小,提高查询效率。3、文本索引:适用于全文搜索的场景,可以快速地查找包含指定关键词的文档。4、地理空间索引:适用于地理位置相关的查询,可以高效地处理地理空间数

SpringBoot中MongoDB聚合管道查询操作$facet$lookup$unwind$group

前言、官方文档、MongoTemplate中的概念前言2023/3/14我是作者,原文最先发布在博客园(2022/12/09),今天把它复制以下到CSDN。是的我是作者。最近在做基于SpringBoot的MongoDB的聚合管道操作,JSON语句不难写,但是理清楚逻辑、顺序很麻烦,而且在Java(Springboot)上操作聚合管道,部分操作符的使用不清楚,加之网上可以参考的示例很零散,很多不够直观全面。所以在翻阅了官方文档和一些个人分享的技术文章后,自己做了测试验证,汇总了这篇笔记,分享一下基于SpringBoot的MongoDB的聚合管道操作。主要是聚焦于理解MongoDBTemplate