草庐IT

数仓建设

全部标签

数据仓库(12)数据治理之数仓数据管理实践心得

这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:数据仓库(11)什么是大数据治理,数据治理的范围是哪些。那接下来就继续说说数据治理的一些思路心得。接到数据治理的任务?要怎么做?梳理目前数据集群,以及业务的总体情况这个,其实没有什么好说,做事情之前,肯定是要先了解,我

建材信息中心:建材行业应分级、分步推进5G工厂建设

建材是支撑我国国民经济发展的重要基础材料工业,它虽然听起来比较抽象,但与人们的生产生活息息相关。建材行业细分领域众多,包含水泥、玻璃、建筑陶瓷、防水涂料等多个子行业,支撑了基础设施建设、建筑业和房地产业的快速发展,极大改善了人们居住环境。建材工业是国家基础设施建设的基石,我国有完善的产业体系,水泥、玻璃、陶瓷、玻纤等多种建材产品的产量位居世界第一。如今随着5G、工业互联网等“新基建”的加速落地,信息化基础比较好的建材企业已经开始将5G技术融入工业生产过程中。但是考虑到建设成本和能力等问题,当前建材行业企业大多停留在单点突破和局部优化阶段,整体呈现一定的“碎片化”特征,如何运用5G技术实现企业“

重构实时离线一体化数仓,Apache Doris 在思必驰的应用实践

作者:赵伟,思必驰大数据高级研发,10年大数据开发和设计经验,负责大数据平台基础技术和OLAP分析技术开发。社区贡献:Doris-spark-connector的实时读写和优化。业务背景思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,致力于成为全链路智能语音及语言交互的平台型企业,自主研发了新一代人机交互平台DUI和人工智能芯片TH1520,为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。思必驰于2019年首次引入ApacheDoris,基于ApacheDoris构建了实时与离线一体的数仓架构。相对于过去架构,ApacheDoris凭借其灵活

人工智能中的智能游戏:对于游戏的智能化建设,应该如何进行?

作者:禅与计算机程序设计艺术随着互联网的发展、云计算的普及和人工智能技术的飞速发展,人工智能已经渗透到我们生活的方方面面,而其中一个重要的领域就是游戏。近年来,由于人工智能技术的进步,越来越多的人开始将其应用于游戏设计中,这使得游戏开发者们拥有了更多的创造力,也让游戏玩家们可以享受到游戏带来的各种乐趣。然而,目前,很多游戏并不满足人工智能带来的丰富的游戏体验,甚至还有一些游戏为了迎合玩家的喜好或者欲望,往往会通过精心设计的设定和规则限制玩家的想象空间,甚至还有些游戏为了达到更高的挑战,往往会直接禁止玩家使用自己的智能体(机器人)进行游戏。在这种情况下,对于游戏的智能化建设,应该如何进行?下面就

基于元数据构建智能化治理平台建设实践

一、音乐数据平台的规模和现状我们通过数据平台整合技术和业务,对业务赋能,使用户能够高效、稳定、安全、经济和准确地使用数据。云音乐是网易集团一个比较大的BU,我们基于集团的数据平台数帆结合音乐的业务打造了面向音乐业务的相对垂类的数据开发平台-云村数据平台。我们的用户和网易数帆有些不同,我们的用户主要是音乐的开发。云音乐经过10年的发展,已经到了一个人人用数据的阶段。除数仓开发以外,技术中心的开发、前端、后端、QA、甚至一些非技术的运营都会用我们的平台来使用数据、做数据处理工作。我们的很多组件是基于业务需求定制的,希望能够减少用户的使用成本,让数据开发工作的门槛更低,可以更高效、更安全地处理数据、

带你掌握数仓的作业级监控TopSQL

摘要:目前TopSQL功能被用户广泛使用,是性能定位、劣化分析、审计回溯等重要的基石,为用户提供覆盖内存、耗时、IO、网络、空间等多方面的监控能力。本文分享自华为云社区《GaussDB(DWS)监控工具指南(一)作业级监控TopSQL》,作者:幕后小黑爪。1、引言:监控系统是智能化管理和自动化运维的基石,可以为资源规划,故障排查,性能优化提供至关重要的数据支持。GaussDB(DWS)作为企业级数仓,为用户提供了一整套覆盖实例级、用户级、作业级的资源监控能力,其中,作业级监控(下文统称为TopSQL)主要是对运行作业的监控,包括了实时运行作业的相关信息,历史运行作业的相关信息等。它收集的数据来

数据仓库(06)数仓分层设计

  目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。  下面是架构图:数据仓库分层设计  数据分层的目的是:减少重复计算,避免烟囱式开发,节省计算资源,靠上层次,越对应用友好,也对用户友好,希望大部分(80%以上)的需求,都用DWS,DW的表来支持就行,所以ODS层数据不能被DM层任务引用,需要抽取数据到DW,或者DWS。  DWS汇总层应优先调用DW明细层。在调用可累加类指标计算时,DWS汇总层尽量优先调用已经产出的粗粒度汇总层,以避免大量汇总都直接从海量的明细数据层计算。

大数据数仓经典最值得阅读书籍推荐

从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。书籍推荐《数据仓库工具箱(第3版)——维度建模权威指南》数据仓库工具箱本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。这本书是数据维度建模的鼻祖,从这个意义上讲,就挺有了解的意义,当然里面的内容偏理论化,举的例子也比较理想化,不过对于我们对数仓有一个全面的

智慧城市和数字化转型:建设可持续的未来

城市化进程不断加快,预计到2040年,全球65%的人口将居住在城市,每天有130万人迁移到城市地区。城市化带来了交通拥堵、能源消耗、废物管理和公共安全等挑战。关键问题包括气候变化、人口压力、不平等和管理不断发展的技术。城市面临污染、基础设施问题和资源枯竭。气候变化加剧了城市的脆弱性,特别是对于边缘群体而言。如今,对创新解决方案的需求比以往任何时候都更加迫切。这催生了智慧城市的概念,由于快速的城市化和对可持续城市发展的追求,智慧城市的发展势头强劲。智慧城市利用先进技术改善公民的生活质量,优化城市规划和管理,创造更加可持续和高效的城市环境。人工智能(AI)已成为城市创新的关键驱动力,引领城镇走向更

服务化架构的社区建设:建立行业影响力和人脉资源

作者:禅与计算机程序设计艺术服务化架构的社区建设:建立行业影响力和人脉资源背景介绍随着互联网行业的迅速发展,各种应用和服务层出不穷。服务化架构作为一种有效的技术手段,逐渐被广泛应用于各个领域。服务化架构的核心思想是将复杂的服务通过API的形式提供给客户,让客户可以方便地使用和维护。然而,在服务化架构的实践中,如何建立一个良好的社区环境,以增加系统的可维护性、可扩展性和影响力,成为了一个亟待解决的问题。文章目的本文旨在探讨服务化架构的社区建设,为开发者提供有价值的实践经验和技术指导。本文将阐述服务化架构的基本概念、实现步骤与流程、应用示例以及优化与改进等方面的内容,帮助读者更好地理解服务化架构的