草庐IT

数据仓库与数据挖掘技术—OLAP

OLAP是数据仓库的用户接口部分,它面对的是决策人员和高层管理人员,通过数据立方体提供多维度的数据视图,并利用旋转、切片等操作扩展查询语言的功能。它力图将数据仓库中的数据转化为有用的信息,从而实现对数据的归纳、分析和处理,帮助企业完成决策。OLAP具有以下特点(FASMI):1、快速性(fast):系统必须能过快速响应用户的分析查询要求,对于用户大部分分析要求在5秒钟内做出反应,否则超过30秒用户可能会失去分析的主线索,影响分析质量。2、分析性(analysis):能处理任何与用户和应用有关的逻辑分析和统计分析,在需要的情况下,允许用户无须编程就可为分析和生产报表定义一些新的特殊运算,将其作为

星云零售信贷基于 Doris 的 OLAP 演进之路

一、数据需求的产生腾梭科技的产品发展历程经历了多个阶段。最初,我们专注于与互联网金融科技公司合作,提供网贷助贷核心对接等服务。随后,我们通过与其他友商联合打造业务获得了突破。在此基础上,我们开始将重心转向行业内的联合业务开展,并逐步实现了对全量客户群体的挖掘和线上营销。同时,我们也探索了纯线上获客新零售业务模式。这些演进不仅涵盖了业务架构和业务模式的调整,也促使了技术架构的演化。我们从单一的交易中心向多业务场景分布式应用发展,在后阶段业务系统全面的进行了微服务技术改造,以满足新零售金融场景的需求。二、OLAP选型困扰在演进过程中,我们产生了许多OLTP系统,包括MySQL、Oracle以及PG

python - 从 python 连接到 Azure 分析服务

我有Azure分析服务实例,带有表格模型,我需要通过python脚本通过DAX或MDX查询数据。我从Azure获得了一个连接字符串,如下所示:Provider=MSOLAP;DataSource=asazure://eastus.asazure.windows.net/mymodel;InitialCatalog=mycatalog;UserID=myuser@mail.com;Password=mypass;PersistSecurityInfo=True;ImpersonationLevel=Impersonate我尝试使用pyodbc连接到该连接字符串:importpyodbcc

python - 为什么 SQL 聚合函数比 Python 和 Java(或穷人的 OLAP)慢得多

我需要一个真正的DBA的意见。Postgres8.3在我的MacbookPro上执行此查询需要200毫秒,而Java和Python执行相同的计算不到20毫秒(350,000行):SELECTcount(id),avg(a),avg(b),avg(c),avg(d)FROMtuples;这是使用SQL数据库时的正常行为吗?架构(表格包含对调查的回复):CREATETABLEtuples(idintegerprimarykey,ainteger,binteger,cinteger,dinteger);\copytuplesfrom'350,000responses.csv'delimite

python - 为什么 SQL 聚合函数比 Python 和 Java(或穷人的 OLAP)慢得多

我需要一个真正的DBA的意见。Postgres8.3在我的MacbookPro上执行此查询需要200毫秒,而Java和Python执行相同的计算不到20毫秒(350,000行):SELECTcount(id),avg(a),avg(b),avg(c),avg(d)FROMtuples;这是使用SQL数据库时的正常行为吗?架构(表格包含对调查的回复):CREATETABLEtuples(idintegerprimarykey,ainteger,binteger,cinteger,dinteger);\copytuplesfrom'350,000responses.csv'delimite

【干货】开源OLAP引擎(ClickHouse、Doris、Presto、ByConity)性能对比分析

随着数据量和数据复杂性的不断增加,越来越多的企业开始使用OLAP(联机分析处理)引擎来处理大规模数据并提供即时分析结果。在选择OLAP引擎时,性能是一个非常重要的因素。目录/基础查询场景下// 连接查询场景 //聚合查询场景//子查询场景/

MatrixOne:HTAP数据库中的OLAP设计

一、MatrixOne整体架构MatrixOne早期的架构是一个典型的sharenothing架构,数据存放在一个MultiRaft集群上面,数据的每一个切片存在一个Raft上面,不同的RaftGroup之间的数据是完全没有重叠的。早期架构存在着一些无法解决的问题,比如在扩展性上,每扩展一个节点,就需要同时扩展存算的资源,因为计算和存储没有完全分开。而且每扩展一个节点,需要大量的数据迁移工作。另外因为每一份数据都要保存至少3个副本,从扩展节点到完成的时间会非常久。在性能方面,Raft协议所包含的leader角色,容易造成热点;在性能较差的存储下,数据库整体性能下降会超过预期;多种引擎各自用途不

小米集团基于Apache Doris的OLAP实践

一、系统选型和应用现状首先来介绍一下小米集团OLAP系统选型与应用现状。1、系统选型在小米内部,OLAP引擎主要的应用场景是BI看板和报表分析。早期通过引入Kylin来满足面向主题式的报表分析的需求,当时没有集团层面通用的BI平台,都是各个业务部门自建自己的BI看板。后来小米决定要建立全集团通用的BI平台,Kylin的灵活性就不太够了,我们就需要做一次选型,选择一款在各个业务场景之间更通用的OLAP方案,通过调研我们选择了SparkSQL+Kudu+HDFS这种方案。计算层使用了SparkSQL,存储层使用了Kudu和HDFS。存储层做了冷热数据的分离,热数据会写入到Kudu,冷数据会存储在H

【大数据 OLAP 技术新书推荐】 字节跳动阿里巴巴大厂资深架构师程序员多年实践经验总结《ClickHouse入门、实战与进阶》ClickHouse领域集大成之作,入门标准参考书日常工作案头必备手册

 目录《ClickHouse入门、实战与进阶》内容简介为何写作本书本书主要特点如何阅读本书致谢全书目录《ClickHouse入门、实战与进阶》英文书名:ClickHouseinAction:FromNovicetoExpertChatGPT:作为一位在大数据领域工作的数据分析师,我一直对于高性能的列式存储数据库ClickHouse非常感兴趣。今天给大家推荐一本新书《ClickHouse入门、实战与进阶》。这本书的作者是一位在阿里巴巴和字节跳动等大型科技公司从事大数据开发多年的专家,因此我非常期待能够从他的经验中学习到更多关于ClickHouse的知识和技能。首先,我非常喜欢这本书的结构和内容。

干货|开源OLAP引擎(ClickHouse、Doris、Presto、ByConity)性能对比分析

随着数据量和数据复杂性的不断增加,越来越多的企业开始使用OLAP(联机分析处理)引擎来处理大规模数据并提供即时分析结果。在选择OLAP引擎时,性能是一个非常重要的因素。 因此,本文将使用TPC-DS基准测试的99个查询语句来对比开源的ClickHouse、Doris、Presto以及ByConity这4个OLAP引擎的性能表现,以便为企业选择合适的OLAP引擎提供参考。 文|蕴博 来自ByConity开源团队  TPC-DS(TransactionProcessingPerformanceCouncilDecisionSupportBenchmark)是一个面向决策支持系统(DecisionS