草庐IT

离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾

原文链接:离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾视频回顾:点击这里课件获取:点击这里一、离线数仓建设背景离线数据是相对实时数据而言的数据产出,不同于实时数据,离线数据一般是T+1天处理,也就是说昨天产生的数据至少要今天才能看到计算结果。离线数据一般应用于对数据时效要求不高,需要基于一段时间的历史数据计算才能得到结果的场景,我们大致可以分为离线数据分析及数据应用两类,离线数据计算具备:数据准确度高、吞吐量大、计算成本低等特点。离线数据应用的场景非常广泛,企业的数据迎来了爆发式的增长,目前企业数据规模巨大、数据类型多样、生成及处理速度极快、数据价值巨大但密度却较低,这些数据增

教你处理数仓慢SQL常见定位问题

摘要:通常在运维监控出现CPU使用率较高、P80/P95指标较高、慢SQL数量上升等现象,或者业务出现超时报错时,优先应排查是否出现慢SQL。本文分享自华为云社区《GaussDB慢SQL常见定位处理手段》,作者:酷哥。关键指标通常在运维监控出现CPU使用率较高、P80/P95指标较高、慢SQL数量上升等现象,或者业务出现超时报错时,优先应排查是否出现慢SQL。定位慢SQL手段实时慢SQL查询查询当前执行时间TOP10的SQL,识别长时间未结束的SQL后可以手动中止。selecta.pid,a.sessionid,a.datname,a.usename,a.application_name,a.

教你处理数仓慢SQL常见定位问题

摘要:通常在运维监控出现CPU使用率较高、P80/P95指标较高、慢SQL数量上升等现象,或者业务出现超时报错时,优先应排查是否出现慢SQL。本文分享自华为云社区《GaussDB慢SQL常见定位处理手段》,作者:酷哥。关键指标通常在运维监控出现CPU使用率较高、P80/P95指标较高、慢SQL数量上升等现象,或者业务出现超时报错时,优先应排查是否出现慢SQL。定位慢SQL手段实时慢SQL查询查询当前执行时间TOP10的SQL,识别长时间未结束的SQL后可以手动中止。selecta.pid,a.sessionid,a.datname,a.usename,a.application_name,a.

数仓专家面对面 | 为什么我选择GaussDB(DWS)

摘要:你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?导语数据仓库的发展一直是备受关注的议题,随着近年来技术的不断演进,数仓也在更新迭代。你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?今天我们邀请到了华为云数据仓库首席架构师,中国计算机学会数据库专委委员——曾凯,来和我们面对面聊一聊从业者眼中的数据仓库。曾凯,本科毕业于浙江大学,博士毕业于加州大学洛杉矶分校,曾在加州大学伯克利分校的AMPLab做博士后研究。他发表了多篇数据库领域的CCFA类论文,曾获得SIGMOD2012最佳论文奖、SIGMOD2014最佳演示奖以

数仓专家面对面 | 为什么我选择GaussDB(DWS)

摘要:你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?导语数据仓库的发展一直是备受关注的议题,随着近年来技术的不断演进,数仓也在更新迭代。你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?今天我们邀请到了华为云数据仓库首席架构师,中国计算机学会数据库专委委员——曾凯,来和我们面对面聊一聊从业者眼中的数据仓库。曾凯,本科毕业于浙江大学,博士毕业于加州大学洛杉矶分校,曾在加州大学伯克利分校的AMPLab做博士后研究。他发表了多篇数据库领域的CCFA类论文,曾获得SIGMOD2012最佳论文奖、SIGMOD2014最佳演示奖以

对比分析数仓中行列存的特性

摘要:行存表示了一种数据的存储方式,是最传统的一种存储方式。本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】行列存对比的一些事》,作者:sevenjiang。行存表示了一种数据的存储方式,是最传统的一种存储方式。对于GaussDB(DWS)来说可以认为其表示存储引擎的基础实现,在其之上逐步构筑了列存和hdfs之类的存储特性。如下简单介绍下行列存使用的一些对比。集群设置介绍:参数default_orientation控制建表不指定存储方式的默认行为。通过如下建表显式设置可以指定行列存储:ORIENTATION指定表数据的存储方式,即行存方式、列存方式,该参数设置成功后就不再支持修

对比分析数仓中行列存的特性

摘要:行存表示了一种数据的存储方式,是最传统的一种存储方式。本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】行列存对比的一些事》,作者:sevenjiang。行存表示了一种数据的存储方式,是最传统的一种存储方式。对于GaussDB(DWS)来说可以认为其表示存储引擎的基础实现,在其之上逐步构筑了列存和hdfs之类的存储特性。如下简单介绍下行列存使用的一些对比。集群设置介绍:参数default_orientation控制建表不指定存储方式的默认行为。通过如下建表显式设置可以指定行列存储:ORIENTATION指定表数据的存储方式,即行存方式、列存方式,该参数设置成功后就不再支持修

DSC:数仓SQL脚本迁移的神奇工具

摘要:本文介绍的DSC工具是针对数据库切换时面临的迁移任务而开发的免安装命令行工具。目的是提供简单、快速、可靠的SQL脚本迁移服务。本文分享自华为云社区《GaussDB(DWS)DSC工具系列:DSC工具初识【玩转PB级数仓GaussDB(DWS)】》,作者:积少成多。DSC背景介绍与DSC介绍当客户从其它数据库切换到DWS数据库时可能会面临迁移任务,其中包括SQL脚本的迁移。SQL脚本的迁移是一个复杂、高风险、耗时的过程。DSC针对这种情况,应运而生。DSC(DatabaseSchemaConvertor)是一款可执行在Linux或Windows操作系统上的命令行工具。其目的便是提供简单、快

DSC:数仓SQL脚本迁移的神奇工具

摘要:本文介绍的DSC工具是针对数据库切换时面临的迁移任务而开发的免安装命令行工具。目的是提供简单、快速、可靠的SQL脚本迁移服务。本文分享自华为云社区《GaussDB(DWS)DSC工具系列:DSC工具初识【玩转PB级数仓GaussDB(DWS)】》,作者:积少成多。DSC背景介绍与DSC介绍当客户从其它数据库切换到DWS数据库时可能会面临迁移任务,其中包括SQL脚本的迁移。SQL脚本的迁移是一个复杂、高风险、耗时的过程。DSC针对这种情况,应运而生。DSC(DatabaseSchemaConvertor)是一款可执行在Linux或Windows操作系统上的命令行工具。其目的便是提供简单、快

bucket表:数仓存算分离中CU与DN解绑的关键

摘要:Bucket存储是数据共享中重要的一环,当前阶段,bucket存储可以将列存中的CU数据和DN节点解绑。本文分享自华为云社区《存算分离之bucket表——【玩转PB级数仓GaussDB(DWS)】》,作者:yd_278301229。在云原生环境,用户可以自由配置cup型号、内存、磁盘、带宽等资源,需要在计算和IO之间做平衡;如果计算和存储耦合,扩缩容时数据要在节点之间移动,同时还要对外提供计算,性能会大受影响。如果存算分离,计算出和存储层可以独立增加节点互不干扰,这其中一个关键点是做到数据共享。Bucket存储是数据共享中重要的一环,当前阶段,bucket存储可以将列存中的CU数据和DN