草庐IT

数仓建模—企业数字化转型

企业数字化转型通过数字化转型提速、赋能传统行业已经成为共识,数字化转型的本质就是应用大规模数据处理技术来提升企业的运营效率。这就涉及到了这个概念之下的一个关键技术–数据处理。随着社会的不断进步,就需从海量的数据中提取有价值、有意义的信息,以改进企业决策的合理性,进而提升效率。围绕这个目标就涉及到解决各种挑战,例如合规性、数据安全、快速决策、遗留系统整合、多样化的数据源等。为此,研究人员抽象出了一个围绕数据处理的概念模型。在这个抽象模型中,最重要的设计思想就是实现由“数据”到“洞察力”的提升。这个变化是由业务发展以及数据处理技术交互作用的必然结果,数据挖掘、数据分析、机器学习等专有名词已经由概念

本地数据仓库项目(一) —— 本地数仓搭建详细流程

1准备1.1本地虚拟机器准备使用本地搭建三台机器,搭建数仓,模拟实际平台数据仓库的搭建。具体的搭建框架如下安装软件角色主机1主机2主机3HadoopNameNode√SecondaryNameNode√DataNode√√√NodeManager√√√ResourceManager√√Zookeeperzkserver√√√Flumeflume√Kafkakafka√√√Hivehive√Mysqlmysql√√1.2项目技术选型类型技术数据采集Flum,Kafka,Sqoop,Logstash,DataX数据存储Mysql,HDFS,Hbase,Redis,MongoDB数据计算HIve,T

数仓开发之DIM层

目录一:DIM层设计要点 二:DIM层大概实操流程   2.1读取数据  2.2过滤数据  2.3写出数据 三:配置表3.1配置表设计 四:实操流程4.1 接收Kafka数据,过滤空值数据4.2 动态拆分维度表功能4.3  把流中的数据保存到对应的维度表五:具体代码实现 5.1 接收Kafka数据,过滤空值数据5.2 根据MySQL的配置表,动态进行分流5.3 保存维度到HBase(Phoenix)一:DIM层设计要点(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。(2)DIM层的数据存储在 HBase 表中。DIM 层表是用于维度关联的,要通过主键去获取相关维度信息,这种场

流图计算在蚂蚁数仓加速场景的应用

一、流图计算引擎TuGraph-AnalyticsTuGraph-Analytics是蚂蚁自研的实时图计算引擎,目前广泛应用于蚂蚁金融风控、知识图谱等业务场景。其形态接近于Spark或Flink这样的计算引擎,具有分布式流图计算的能力,类似于SparkGraphX和TigerGraph。但与它们最大的区别是TuGraph-Analytics是个流图计算引擎,它具备流批一体的能力,能处理流式图数据,也能做批量的图的分析,另外也具备图的OLAP分析的能力。上图中列出了TuGraph-Analytics的发展历程,16年就已经立项,当时基于内部的流式计算引擎扩展了图的能力,实现了初代的流图计算引擎。

数仓开发之ODS层

优秀可靠的数仓体系,需要良好的数据分层结构。合理的分层,能够使数据体系更加清晰,使复杂问题得以简化。以下是该项目的分层规划。1设计要点(1)ODS层的表结构设计依托于从业务系统同步过来的数据结构(2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比较高的,此处选择gzip(3)ODS层表名的命名规范为:ods_表名_单分区增量全量标识(inc/full)。2相关表2.1整车日志表(增量日志表)CREATEEXTERNALTABLEods_car_data_inc(`vin`STRINGCOMMENT'汽车唯一ID',`car_status`INTCOMMENT'车辆状态',`charge_

【数仓】通过Flume+kafka采集日志数据存储到Hadoop

相关文章【数仓】基本概念、知识普及、核心技术【数仓】数据分层概念以及相关逻辑【数仓】Hadoop软件安装及使用(集群配置)【数仓】Hadoop集群配置常用参数说明【数仓】zookeeper软件安装及集群配置【数仓】kafka软件安装及集群配置【数仓】flume软件安装及配置【数仓】flume常见配置总结,以及示例一、flume有什么作用ApacheFlume是一个分布式、可靠且可用的大数据日志采集、聚合和传输系统。它主要用于将大量的日志数据从不同的数据源收集起来,然后通过通道(Channel)进行传输,最终将数据传输到指定的目的地,如HDFS、HBase等。Flume具有高度可扩展性、容错性和

【数仓】kafka软件安装及集群配置

相关文章【数仓】基本概念、知识普及、核心技术【数仓】数据分层概念以及相关逻辑【数仓】Hadoop软件安装及使用(集群配置)【数仓】Hadoop集群配置常用参数说明【数仓】zookeeper软件安装及集群配置一、环境准备准备3台虚拟机Hadoop131:192.168.56.131Hadoop132:192.168.56.132Hadoop133:192.168.56.133本例系统版本CentOS-7.8,已安装jdk1.8关闭防火墙systemctlstopfirewalldzookeeper已安装,且已启动二、kafka安装配置1、kafka下载安装#下载解压wget--no-check-

解析云原生数仓 ByteHouse 如何构建高性能向量检索

随着LLM技术应用及落地,数据库需要提高向量分析以及AI支持能力,向量数据库及向量检索等能力“异军突起”,迎来业界持续不断关注。简单来说,向量检索技术以及向量数据库能为LLM提供外置的记忆单元,通过提供与问题及历史答案相关联的内容,协助LLM返回更准确的答案。不仅仅是LLM,向量检索也早已在OLAP引擎中应用,用来提升非结构化数据的分析和检索能力。ByteHouse是火山引擎推出的云原生数据仓库,近期推出高性能向量检索能力,本篇将结合ByteHouse团队对向量数据库行业和技术的前沿观察,详细解读OLAP引擎如何建设高性能的向量检索能力,并最终通过开源软件VectorDBBench测试工具,在

【数仓】Hadoop软件安装及使用(集群配置)

一、环境准备1、准备3台虚拟机Hadoop131:192.168.56.131Hadoop132:192.168.56.132Hadoop133:192.168.56.133本例系统版本CentOS-7.8,已安装jdk1.82、hosts配置,关闭防火墙vi/etc/hosts添加如下内容,然后保存192.168.56.131hadoop131192.168.56.132hadoop132192.168.56.133hadoop133关闭防火墙systemctlstopfirewalld3、配置证书登录(免秘钥)三台服务器都要操作一遍ssh-keygen-trsa-N''-f/root/.s

使用python连接hive数仓

1版本参数查看hadoop和hive的版本号ls-l/opt#总用量3#drwxr-xr-x11rootroot2271月2619:23hadoop-3.3.6#drwxr-xr-x10rootroot2052月1218:53hive-3.1.3#drwxrwxrwx.4rootroot322月1122:19tmp查看java版本号java-version#javaversion"1.8.0_391"#Java(TM)SERuntimeEnvironment(build1.8.0_391-b13)#JavaHotSpot(TM)64-BitServerVM(build25.391-b13,mi