草庐IT

Starrocks

全部标签

第2.4章:StarRocks表设计--分区分桶与副本数

StarRocks采用Range-Hash的组合数据分布方式,也就是我们一直在提的分区分桶方式。1分区StarRocks中的分区是在建表时通过PARTITIONBYRANGE()语句设置,用于分区的列也被称之为分区键,当前分区键仅支持日期类型和整数类型(支持一列或多列)。例如前文中表table01中“PARTITIONBYRANGE(event_time)”,event_time即为分区键。若建表时我们不进行分区,StarRocks会将整个table作为一个分区(这个分区的名称和表名相同)。StarRocks会将数据使用分区进行裁剪,例如按天分区时,每天的数据都会单独存储在一个分区内,当我们使

StarRocks 自增ID实现分页优化

StarRocks自增ID实现分页优化场景介绍目前StarRocks在不支持自增ID的情况下,对于明细模型的分页查询场景,由于要保证每一次分页查询出来的数据的唯一性,需要我们人为去指定orderby的列,无法利用到StarRocks自身的排序键等特性,造成分页查询场景下,性能并不是很好。有没有一种替代方案能够在外部实现一种自增id,保证每个批次提交的数据都比之前批次的数据的ID大,同时,该ID具有唯一性。并且是一个友好的数据类型(数值型),用来做明细模型的第一列,利用StarRocks的排序键来为分页场景加速。当然是有的。实现方案该方案其实就是利用各种etl工具,例如sparkconnecto

StarRocks 自增ID实现分页优化

StarRocks自增ID实现分页优化场景介绍目前StarRocks在不支持自增ID的情况下,对于明细模型的分页查询场景,由于要保证每一次分页查询出来的数据的唯一性,需要我们人为去指定orderby的列,无法利用到StarRocks自身的排序键等特性,造成分页查询场景下,性能并不是很好。有没有一种替代方案能够在外部实现一种自增id,保证每个批次提交的数据都比之前批次的数据的ID大,同时,该ID具有唯一性。并且是一个友好的数据类型(数值型),用来做明细模型的第一列,利用StarRocks的排序键来为分页场景加速。当然是有的。实现方案该方案其实就是利用各种etl工具,例如sparkconnecto

springboot集成starrocks、以及采用flink实现mysql与starrocks亚秒级同步

一、application.yml(因采用dynamic-datasource-spring-boot-starter动态数据源,所以才是以下配置文件的样式,像redis,druid根据自己情况导入依赖)这个配置文件的场景是把starrocks当成slave库在用。某些大数据慢查询就走starrocks就这样配置好后就可把starrocks当mysql用了#spring配置spring:redis:host:localhostport:6379password:datasource:druid:stat-view-servlet:enabled:trueloginUsername:adminl

StarRocks在捞月盘货中的实践

1、背景货品活动运营在圈选所需货品清单时,需要操作自助取数、智能运营系统、数据报表等多个系统工具才能完成。需要一个以供给侧盘货为核心需求的盘货工具,实现运营各场景盘货及货品分析诉求,提升运营效率。但是实现起来由以下几个难点。指标复杂。除了常用的聚合函数SUM,MIN,MAX等,还有各种占比、期末、水平等。查询条件灵活。几乎每一列数据都可以作为查询条件进行筛选。常规的数据库无法承担此类查询。数据量大。总计几十亿的数据量。业内比较流行的OLAP数据库主要有ClickHouse和StarRocks。ClickHouse使用成本较高,非标准SQL协议,对JOIN支持不好,对灵活的业务开发并不友好。St

StarRocks在捞月盘货中的实践

1、背景货品活动运营在圈选所需货品清单时,需要操作自助取数、智能运营系统、数据报表等多个系统工具才能完成。需要一个以供给侧盘货为核心需求的盘货工具,实现运营各场景盘货及货品分析诉求,提升运营效率。但是实现起来由以下几个难点。指标复杂。除了常用的聚合函数SUM,MIN,MAX等,还有各种占比、期末、水平等。查询条件灵活。几乎每一列数据都可以作为查询条件进行筛选。常规的数据库无法承担此类查询。数据量大。总计几十亿的数据量。业内比较流行的OLAP数据库主要有ClickHouse和StarRocks。ClickHouse使用成本较高,非标准SQL协议,对JOIN支持不好,对灵活的业务开发并不友好。St

CloudCanal实战-五分钟搞定Oracle到StarRocks数据迁移与同步

简述CloudCanal当前最新版本已经支持源端Oracle、SqlServer等主流传统数据库作为源端迁移同步数据到StarRocks来构建实时数仓。本文简要介绍如何快速构建一条Oracle->StarRocks数据链路。技术要点基于StreamLoad的导入方式CloudCanal采用了StreamLoad的方式进行导入,源端的消息会转成字节流,最后会以批量发送的形式通过HTTP协议发往StarRocks。CloudCanal默认采用json格式来进行StreamLoad导入,如果用户内容特殊字符较少,也可以开启csv格式导入,分隔符可以通过参数columnSeparator和lineSe

CloudCanal实战-五分钟搞定Oracle到StarRocks数据迁移与同步

简述CloudCanal当前最新版本已经支持源端Oracle、SqlServer等主流传统数据库作为源端迁移同步数据到StarRocks来构建实时数仓。本文简要介绍如何快速构建一条Oracle->StarRocks数据链路。技术要点基于StreamLoad的导入方式CloudCanal采用了StreamLoad的方式进行导入,源端的消息会转成字节流,最后会以批量发送的形式通过HTTP协议发往StarRocks。CloudCanal默认采用json格式来进行StreamLoad导入,如果用户内容特殊字符较少,也可以开启csv格式导入,分隔符可以通过参数columnSeparator和lineSe

用“极速统一”,开启金融行业数据分析新范式

数据库作为金融信息系统的核心基础设施,历经数十年发展,为金融行业转型升级提供了有力的技术支撑。同时,以银行为代表的金融行业是数据库销售额占比最高的市场,也是对数据库技术依赖度最高、要求最严格的市场。据统计,2021中国数据库市场行业分布中,金融占20.2%,政府占18.4%,互联网14.8%,运营商8.9%。IDC预测,2024年全球数仓的市场规模将达到297亿美元,2019-2024年的年复合增长率将达到12%,其中云上的数仓市场规模将达到181亿美元,2019-2024年的CAGR将达到25.3%。预计2024年,中国数仓市场的规模是168.5亿元,中国大数据平台软件市场规模总体为352.

用“极速统一”,开启金融行业数据分析新范式

数据库作为金融信息系统的核心基础设施,历经数十年发展,为金融行业转型升级提供了有力的技术支撑。同时,以银行为代表的金融行业是数据库销售额占比最高的市场,也是对数据库技术依赖度最高、要求最严格的市场。据统计,2021中国数据库市场行业分布中,金融占20.2%,政府占18.4%,互联网14.8%,运营商8.9%。IDC预测,2024年全球数仓的市场规模将达到297亿美元,2019-2024年的年复合增长率将达到12%,其中云上的数仓市场规模将达到181亿美元,2019-2024年的CAGR将达到25.3%。预计2024年,中国数仓市场的规模是168.5亿元,中国大数据平台软件市场规模总体为352.