一、概要ApacheDoris是一款现代MPP(MassivelyParallelProcessing大规模并行处理)的分布式SQL分析数据库,所谓分析数据库就是将其数据集分布在许多机器或节点上,以处理大量数据,采用Apache2.0认证授权。它的前身是原百度Palo,由百度在2017年开源,2018年进入Apache孵化器。ApacheDoris它可以提供亚秒级查询和高效的实时数据分析。凭借其分布式架构,将支持高达10PB级别的数据集,并且易于操作。它可以满足各种数据分析场景,比如:历史数据报告、实时数据分析、交互式数据分析、探索性数据分析等。关于MPP(MassivelyParallelP
导读:传统行业面对数字化转型往往会遇到很多困难,比如缺乏数据管理体系、数据需求开发流程冗长、烟囱式开发、过于依赖纸质化办公等,美联物业也有遇到类似的问题。本文主要介绍美联物业基于ApacheDoris在数据体系方面的建设,以及对数据仓库搭建经验进行的分享和介绍,旨在为数据量不大的传统企业提供一些数仓思路,实现数据驱动业务,低成本、高效的进行数仓改造。作者|美联物业数仓负责人谢帮桂美联物业属于香港美联集团成员,于1973年成立,并于1995年在香港联合交易所挂牌上市(香港联交所编号:1200),2008年美联工商铺于主板上市(香港联交所编号:459),成为拥有两家上市公司的地产代理企业。拥有40
导读:传统行业面对数字化转型往往会遇到很多困难,比如缺乏数据管理体系、数据需求开发流程冗长、烟囱式开发、过于依赖纸质化办公等,美联物业也有遇到类似的问题。本文主要介绍美联物业基于ApacheDoris在数据体系方面的建设,以及对数据仓库搭建经验进行的分享和介绍,旨在为数据量不大的传统企业提供一些数仓思路,实现数据驱动业务,低成本、高效的进行数仓改造。作者|美联物业数仓负责人谢帮桂美联物业属于香港美联集团成员,于1973年成立,并于1995年在香港联合交易所挂牌上市(香港联交所编号:1200),2008年美联工商铺于主板上市(香港联交所编号:459),成为拥有两家上市公司的地产代理企业。拥有40
随着用户规模的极速扩张,越来越多用户将ApacheDoris用于构建企业内部的统一分析平台,这一方面需要ApacheDoris去承担更大业务规模的处理和分析——既包含了更大规模的数据量、也包含了更高的并发承载,而另一方面,也意味着需要应对企业更加多样化的数据分析诉求,从过去的统计报表、即席查询、交互式分析等典型OLAP场景,拓展到推荐、风控、标签画像以及IoT等更多业务场景中,而数据服务(DataServing)就是其中具有代表性的一类需求。DataServing通常指的是向用户或企业客户提供数据访问服务,用户使用较为频繁的查询模式一般是按照Key查询一行或多行数据,例如:订单详情查询商品详情
随着用户规模的极速扩张,越来越多用户将ApacheDoris用于构建企业内部的统一分析平台,这一方面需要ApacheDoris去承担更大业务规模的处理和分析——既包含了更大规模的数据量、也包含了更高的并发承载,而另一方面,也意味着需要应对企业更加多样化的数据分析诉求,从过去的统计报表、即席查询、交互式分析等典型OLAP场景,拓展到推荐、风控、标签画像以及IoT等更多业务场景中,而数据服务(DataServing)就是其中具有代表性的一类需求。DataServing通常指的是向用户或企业客户提供数据访问服务,用户使用较为频繁的查询模式一般是按照Key查询一行或多行数据,例如:订单详情查询商品详情
在使用doris的时候,由于一些极端情况的出现或者doris本身bug的原因,会出现一些tablet损坏的情况,导致数据的插入和查询受到影响,下面总结一下doris副本出现损坏时进行修复的一些情况。目录一、多副本情况下个别副本损坏二、多副本或者1个副本情况下所有副本都损坏2.1使用空白副本填补缺失副本2.2 使用meta_tool删除tablet副本的元数据一、多副本情况下个别副本损坏在大多数情况下,如果tablet配置的是多个副本,如果某个副本发生损坏,Doris都可以自动的进行副本修复和集群均衡,但在某些情况下,Doris可能无法自动检测某些损坏的副本,从而导致查询或导入在损坏的副本上频繁
在使用doris的时候,由于一些极端情况的出现或者doris本身bug的原因,会出现一些tablet损坏的情况,导致数据的插入和查询受到影响,下面总结一下doris副本出现损坏时进行修复的一些情况。目录一、多副本情况下个别副本损坏二、多副本或者1个副本情况下所有副本都损坏2.1使用空白副本填补缺失副本2.2 使用meta_tool删除tablet副本的元数据一、多副本情况下个别副本损坏在大多数情况下,如果tablet配置的是多个副本,如果某个副本发生损坏,Doris都可以自动的进行副本修复和集群均衡,但在某些情况下,Doris可能无法自动检测某些损坏的副本,从而导致查询或导入在损坏的副本上频繁
最近居家中,对自己之前做的一些工作进行总结。正好有Doris社区的小伙伴吐槽向量化的导入性能表现并不是很理想,就借这个机会对之前开发的向量化导入的工作进行了性能调优,取得了不错的优化效果。借用本篇手记记录下一些性能优化的思路,抛砖引玉,希望大家多多参与到性能优化的工作总来。1.看起来很慢的向量化导入问题的发现来自社区用户的吐槽:向量化导入太慢了啊,我测试了xx数据库,比Doris快不少啊。有招吗?啊哈?慢这么多吗?那我肯定得瞅一瞅了。于是对用户case进行了复现,发现用户测试的是代码库里ClickBench的streamload,80个G左右的数据,向量化导入耗时得接近1200s,而非向量化导
最近居家中,对自己之前做的一些工作进行总结。正好有Doris社区的小伙伴吐槽向量化的导入性能表现并不是很理想,就借这个机会对之前开发的向量化导入的工作进行了性能调优,取得了不错的优化效果。借用本篇手记记录下一些性能优化的思路,抛砖引玉,希望大家多多参与到性能优化的工作总来。1.看起来很慢的向量化导入问题的发现来自社区用户的吐槽:向量化导入太慢了啊,我测试了xx数据库,比Doris快不少啊。有招吗?啊哈?慢这么多吗?那我肯定得瞅一瞅了。于是对用户case进行了复现,发现用户测试的是代码库里ClickBench的streamload,80个G左右的数据,向量化导入耗时得接近1200s,而非向量化导
背景公司的一个项目,需要记录某个接口的访问pv、uv,并且不能丢失明细数据,需要记录【用户,调用接口,调用详情,调用时间,调用次数】之前使用MySQL记录,每来一条记录一条,例如:insertintolog(id,user_id,resource_id,stat_date,view_count)values(default,user_id,view_id,'2022-06-11',1)存在的问题是没过多久MySQL中数据量级就到达千万,没法在毫秒的时间内返回结果使用MySQL中的明细数据进行聚合分析也非常的慢Doris聚合模型首先简单介绍下Doris,它是一个MPP数据库,一般是数据仓库进行多