草庐IT

#yyds干货盘点# git实用基础教程(分布式版本管理)

(一个简单的git教学)一、常用的linux命令gitbush的命令行风格和linux与unix风格一致。所以这里会先讲一些简单的linux命令cd切换到相应子目录cd..返回上级目录pwd显示当前目录ls(ll)列出当前目录所有文件touch创建一个新文件,例如:touchindex.htmlrm删除一个文件,如:rmindex.htmlrm-r删除一个文件夹rm-rf/递归清除,/在linux里面表示根目录mkdir新建一个文件夹,如:mkdirnewfoldermv移动文件,如:mvindex.htmlreset初始化终端(清屏)clear清屏history在终端输入的命令历史help帮

数仓建模—指标体系#yyds干货盘点#

关注公众号:大数据技术派,回复资料,领取1024G资料。本文首发于我的个人博客:数仓建模—指标体系指标体系提起指标这个词,每个人似乎都可以说出几个指标,像经常在工作中会听到的日活、月活、注册率、转化率、交易量等事实上指标就是用来量化事物的一个工具,帮助我们去将一些抽象的事件得出一个轮廓上的描述。例如我们可以从指标上判断一个产品的好坏,用户粘性等等,例如我们通过日活能去判断出我们整个产品的用户量,从而能反应出我们这个产品的一个健康程度,也就是否处于增长过程中。一个好的数据指标体系可以助力业务快速的解构业务、理解业务、发现业务问题,快速定位原因,并且找到最合适的解决方案。因此学习搭建一个好的数据指

数仓建模—指标体系#yyds干货盘点#

关注公众号:大数据技术派,回复资料,领取1024G资料。本文首发于我的个人博客:数仓建模—指标体系指标体系提起指标这个词,每个人似乎都可以说出几个指标,像经常在工作中会听到的日活、月活、注册率、转化率、交易量等事实上指标就是用来量化事物的一个工具,帮助我们去将一些抽象的事件得出一个轮廓上的描述。例如我们可以从指标上判断一个产品的好坏,用户粘性等等,例如我们通过日活能去判断出我们整个产品的用户量,从而能反应出我们这个产品的一个健康程度,也就是否处于增长过程中。一个好的数据指标体系可以助力业务快速的解构业务、理解业务、发现业务问题,快速定位原因,并且找到最合适的解决方案。因此学习搭建一个好的数据指

万字详解实时计算一致性机制:对比Flink和Spark#yyds干货盘点#

近期,在网上看到一个来自外文网站的帖子,内容是一位业内大牛讨论#​​在分布式系统中最难解决的几个技术难题#。该话题目前已收到超过10000+的点赞认同数。​​文中提出的排行第二的难题:​​Exactly-Oncedelivery​​。在很多评论中,甚至被认为是理论上几乎不可解决的问题。对于此技术话题的理解,可谓见仁见智,而在流处理领域中的​​Exactly-Once一致性语义​​则是大数据开发者必须掌握的核心知识点。由此引出日常工作常用的计算框架思考:海量数据实时计算:Spark和Flink引擎是如何保证Exactly-Once一致性?话不多说,我将从如下几点内容对此问题进行阐释:什么是Exa

万字详解实时计算一致性机制:对比Flink和Spark#yyds干货盘点#

近期,在网上看到一个来自外文网站的帖子,内容是一位业内大牛讨论#​​在分布式系统中最难解决的几个技术难题#。该话题目前已收到超过10000+的点赞认同数。​​文中提出的排行第二的难题:​​Exactly-Oncedelivery​​。在很多评论中,甚至被认为是理论上几乎不可解决的问题。对于此技术话题的理解,可谓见仁见智,而在流处理领域中的​​Exactly-Once一致性语义​​则是大数据开发者必须掌握的核心知识点。由此引出日常工作常用的计算框架思考:海量数据实时计算:Spark和Flink引擎是如何保证Exactly-Once一致性?话不多说,我将从如下几点内容对此问题进行阐释:什么是Exa

YYDS|不得不看的Spark内存管理机制

今天和大家介绍Spark的内存模型,干货多多,不要错过奥~与数据频繁落盘的​​Mapreduce​​引擎不同,Spark是基于​​内存​​的分布式计算引擎,其内置强大的内存管理机制,保证数据​​优先内存​​处理,并支持数据磁盘存储。本文将重点探讨Spark的内存管理是如何实现的,内容如下:Spark内存概述Spark内存管理机制SparkonYarn模式的内存分配1Spark内存概述首先简单的介绍一下Spark运行的基本流程。用户在​​Driver​​端提交任务,初始化运行环境(SparkContext等)Driver根据配置向​​ResoureManager​​申请资源(executors及

YYDS|不得不看的Spark内存管理机制

今天和大家介绍Spark的内存模型,干货多多,不要错过奥~与数据频繁落盘的​​Mapreduce​​引擎不同,Spark是基于​​内存​​的分布式计算引擎,其内置强大的内存管理机制,保证数据​​优先内存​​处理,并支持数据磁盘存储。本文将重点探讨Spark的内存管理是如何实现的,内容如下:Spark内存概述Spark内存管理机制SparkonYarn模式的内存分配1Spark内存概述首先简单的介绍一下Spark运行的基本流程。用户在​​Driver​​端提交任务,初始化运行环境(SparkContext等)Driver根据配置向​​ResoureManager​​申请资源(executors及

万字长文玩转Spark面试: 进大厂必看!#yyds干货盘点#

本文是历时一周整理的Spark保姆级教程。基于面试角度出发,涉及内容有Spark的相关概念、架构原理、部署、调优及实战问题。文中干货较多,希望大家耐心看完。1Spark基础篇1.1介绍一下SparkApacheSpark是一个分布式、内存级计算框架。起初为加州大学伯克利分校​​AMPLab​​​的实验性项目,后经过开源,在2014年成为​​Apache​​基金会顶级项目之一,现已更新至3.2.0版本。1.2谈一谈Spark的生态体系Spark体系包含​​SparkCore​​​、​​SparkSQL​​​、​​SparkStreaming​​​、​​SparkMLlib​​​及​​SparkG

万字长文玩转Spark面试: 进大厂必看!#yyds干货盘点#

本文是历时一周整理的Spark保姆级教程。基于面试角度出发,涉及内容有Spark的相关概念、架构原理、部署、调优及实战问题。文中干货较多,希望大家耐心看完。1Spark基础篇1.1介绍一下SparkApacheSpark是一个分布式、内存级计算框架。起初为加州大学伯克利分校​​AMPLab​​​的实验性项目,后经过开源,在2014年成为​​Apache​​基金会顶级项目之一,现已更新至3.2.0版本。1.2谈一谈Spark的生态体系Spark体系包含​​SparkCore​​​、​​SparkSQL​​​、​​SparkStreaming​​​、​​SparkMLlib​​​及​​SparkG