草庐IT

重构实时离线一体化数仓,Apache Doris 在思必驰的应用实践

作者:赵伟,思必驰大数据高级研发,10年大数据开发和设计经验,负责大数据平台基础技术和OLAP分析技术开发。社区贡献:Doris-spark-connector的实时读写和优化。业务背景思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,致力于成为全链路智能语音及语言交互的平台型企业,自主研发了新一代人机交互平台DUI和人工智能芯片TH1520,为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。思必驰于2019年首次引入ApacheDoris,基于ApacheDoris构建了实时与离线一体的数仓架构。相对于过去架构,ApacheDoris凭借其灵活

带你掌握数仓的作业级监控TopSQL

摘要:目前TopSQL功能被用户广泛使用,是性能定位、劣化分析、审计回溯等重要的基石,为用户提供覆盖内存、耗时、IO、网络、空间等多方面的监控能力。本文分享自华为云社区《GaussDB(DWS)监控工具指南(一)作业级监控TopSQL》,作者:幕后小黑爪。1、引言:监控系统是智能化管理和自动化运维的基石,可以为资源规划,故障排查,性能优化提供至关重要的数据支持。GaussDB(DWS)作为企业级数仓,为用户提供了一整套覆盖实例级、用户级、作业级的资源监控能力,其中,作业级监控(下文统称为TopSQL)主要是对运行作业的监控,包括了实时运行作业的相关信息,历史运行作业的相关信息等。它收集的数据来

数据仓库(06)数仓分层设计

  目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。  下面是架构图:数据仓库分层设计  数据分层的目的是:减少重复计算,避免烟囱式开发,节省计算资源,靠上层次,越对应用友好,也对用户友好,希望大部分(80%以上)的需求,都用DWS,DW的表来支持就行,所以ODS层数据不能被DM层任务引用,需要抽取数据到DW,或者DWS。  DWS汇总层应优先调用DW明细层。在调用可累加类指标计算时,DWS汇总层尽量优先调用已经产出的粗粒度汇总层,以避免大量汇总都直接从海量的明细数据层计算。

大数据数仓经典最值得阅读书籍推荐

从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。书籍推荐《数据仓库工具箱(第3版)——维度建模权威指南》数据仓库工具箱本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。这本书是数据维度建模的鼻祖,从这个意义上讲,就挺有了解的意义,当然里面的内容偏理论化,举的例子也比较理想化,不过对于我们对数仓有一个全面的

数仓--------简单了解

作者前言🎂✨✨✨✨✨✨🍧🍧🍧🍧🍧🍧🍧🎂​🎂作者介绍:🎂🎂🎂🎉🎉🎉🎉🎉🎉🎉🎂🎂作者id:老秦包你会,🎂简单介绍:🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂喜欢学习C语言和python等编程语言,是一位爱分享的博主,有兴趣的小可爱可以来互讨🎂🎂🎂🎂🎂🎂🎂🎂🎂个人主页::小小页面🎂🎂gitee页面:秦大大🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂一个爱分享的小博主欢迎小可爱们前来借鉴🎂数仓**作者前言**什么是数仓数仓分层数仓类型数仓规范数据走向什么是数仓数仓,又称为数据仓库,是一个存放数据的仓库。这些数据需要按照一些结构、规则来组织和存放。作为数据基础,不仅需要满足基础数据的提供,也要允许经过需求计算之后的数据支持。数仓是一套体系

数仓理论及建模方法

1.数仓概述数据仓库:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合。重要用于组织积累的历史数据,并且使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能。面向主题:为数据分析提供服务,根据主题将原始数据集合在一起。集成的:原始数据来源于不同的数据源,要整合成最终数据,需要经过ETL(抽取、清洗、转换)的过程。非易失:保存的数据是一系列历史快照,不允许被修改,只允许通过工具进行查询、分析。时变性:数仓会定期接收、集成新的数据,从而反映出数据的最新变化。数据仓库VS 数据库数据库面向事务设计,属于OLTP(在线事务处理)系统

数仓建模—主题域和主题

主题域和主题前面在这个专题的第一篇,也就是数仓建模—数仓初识中我们就提到了一个概念—主题,这个概念其实在数仓的定义中也有提到数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。今天我们主要来探究一下,数仓的主题到底是什么,不过开始之前还是建议先读一下前面相关的文章​数仓建模—分层建设理论数仓建模—数据域数仓建模—数据集市(DM)主题这里引入了一个词,叫主题,其实我们知道kafka中的topic就是主题,不过我们先百度一下这个词的意思是什么主题就是你的核心思想,有点类似你的文章标题或者文章的概要,有了这个认知已经够了主题是与传统数据库的面向应用相对应的,是一个

「数仓建设篇」数仓主题域划分

大家好,本篇聊一下数仓建设,讲一下面试常遇到的主题域与主题划分,更多精彩文章优先从微信公众号《大数据阶梯之路》首发,欢迎关注,公众号回复:大数据数仓资料,可以获取大数据数仓相关学习资料。一、前言数据仓库具有面向主题的特性,那么就会有主题的概念,数仓建设是遵循纵向分层开发,横向划分主题域设计,数仓分层就不在这次谈了,这次我会结合本人数仓工作实践总结的经验来聊聊数仓主题域划分,同时会引申出主题划分,和数据域是什么,业务过程等。这个对于数仓工程师来说是必备的能力,比如当你面临着一个新业务的开启,需要从0到1开始搭建数据仓库或者数据集市,这时候就要考虑到主题域和主题的合理划分。二、数仓建设的步骤1.业

「数仓建设篇」数仓主题域划分

大家好,本篇聊一下数仓建设,讲一下面试常遇到的主题域与主题划分,更多精彩文章优先从微信公众号《大数据阶梯之路》首发,欢迎关注,公众号回复:大数据数仓资料,可以获取大数据数仓相关学习资料。一、前言数据仓库具有面向主题的特性,那么就会有主题的概念,数仓建设是遵循纵向分层开发,横向划分主题域设计,数仓分层就不在这次谈了,这次我会结合本人数仓工作实践总结的经验来聊聊数仓主题域划分,同时会引申出主题划分,和数据域是什么,业务过程等。这个对于数仓工程师来说是必备的能力,比如当你面临着一个新业务的开启,需要从0到1开始搭建数据仓库或者数据集市,这时候就要考虑到主题域和主题的合理划分。二、数仓建设的步骤1.业

【从0开始离线数仓项目】——数据仓库的环境搭建(1)

目录一、服务器环境准备1.2编写集群分发脚本xsync1.3SSH无密登录配置1.4JDK准备1.5环境变量配置说明二、集群所有进程查看脚本三、Zookeeper安装3.1分布式安装部署3.2ZK集群启动停止脚本3.3客户端命令行操作一、服务器环境准备CentOS7怎么从命令行模式切换到图形界面模式切换至root权限:sudosu-  准备三台虚拟机,虚拟机配置要求如下:(1)单台虚拟机:内存4G,硬盘50G(2)修改克隆虚拟机的静态IP[root@hadoop102~]#vim/etc/sysconfig/network-scripts/ifcfg-ens33改成DEVICE=ens33TY