草庐IT

数仓建设

全部标签

数据仓库(10)数仓拉链表开发实例

拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。这里用商品价格的变化作为例子,具体的开发过程要按实际的来,不能照搬代码,编程重要的是了解背后的思路和原理,而不是ctrl+c和ctrl+v。那对我们学习提升的帮助有限,虽然可能对完成工作的效率帮助很大。在开始介绍之前,这里的数据仓库的环境是HIVE。首先看看原始的数据:商品价格原始数据可以看到,原始的数据是每一个商品,一条记

离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾

原文链接:离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾视频回顾:点击这里课件获取:点击这里一、离线数仓建设背景离线数据是相对实时数据而言的数据产出,不同于实时数据,离线数据一般是T+1天处理,也就是说昨天产生的数据至少要今天才能看到计算结果。离线数据一般应用于对数据时效要求不高,需要基于一段时间的历史数据计算才能得到结果的场景,我们大致可以分为离线数据分析及数据应用两类,离线数据计算具备:数据准确度高、吞吐量大、计算成本低等特点。file离线数据应用的场景非常广泛,企业的数据迎来了爆发式的增长,目前企业数据规模巨大、数据类型多样、生成及处理速度极快、数据价值巨大但密度却较低,这

离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾

原文链接:离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾视频回顾:点击这里课件获取:点击这里一、离线数仓建设背景离线数据是相对实时数据而言的数据产出,不同于实时数据,离线数据一般是T+1天处理,也就是说昨天产生的数据至少要今天才能看到计算结果。离线数据一般应用于对数据时效要求不高,需要基于一段时间的历史数据计算才能得到结果的场景,我们大致可以分为离线数据分析及数据应用两类,离线数据计算具备:数据准确度高、吞吐量大、计算成本低等特点。file离线数据应用的场景非常广泛,企业的数据迎来了爆发式的增长,目前企业数据规模巨大、数据类型多样、生成及处理速度极快、数据价值巨大但密度却较低,这

大数据入门(一)—— 数据仓库(数仓)基本概念

前言:最近做需求的时候,涉及到了数仓相关的知识。简单介绍下数仓的一些基本概念。以及,了解下大数据开发的一些基本流程。一、什么是数仓?数据仓库,由数据仓库之父比尔·恩门(BillInmon)于1990年提出的。1991年,他写了一本书,叫《BuildingtheDataWarehouse》(建立数据仓库),书中提出的:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、不可修改的(Non-Volatile)、与时间相关的(TimeVariant)的数据集合,专门用于支持管理决策(DecisionMakingSupport)。简

大数据入门(一)—— 数据仓库(数仓)基本概念

前言:最近做需求的时候,涉及到了数仓相关的知识。简单介绍下数仓的一些基本概念。以及,了解下大数据开发的一些基本流程。一、什么是数仓?数据仓库,由数据仓库之父比尔·恩门(BillInmon)于1990年提出的。1991年,他写了一本书,叫《BuildingtheDataWarehouse》(建立数据仓库),书中提出的:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、不可修改的(Non-Volatile)、与时间相关的(TimeVariant)的数据集合,专门用于支持管理决策(DecisionMakingSupport)。简

小公司的前端建设的一些思考

在之前的企业项目开发中,做过一些前端基础建设和项目推进的工作。完成项目之后,一直没时间整理和反思在推进过程中,遇到的问题以及解决方案,由于前端团队人员较少,更多的是多人协作以及大家共同攻克一些问题。工具前端的编辑器,包括sublime,还有vscode,以及webstorm、atom这类编辑器,发展到现在,vscode成为了目前前端开发的主流编辑器在团队开发过程中,针对一些固定的插件,需要实现规范和统一。包括:tab缩进的大小,以及格式化的插件,例如在vue开发过程中,推荐使用Vetur进行格式化和代码约束,包括代码检查eslint这些工具。除了统一使用的插件作为规范以外,其他的插件作为个人爱

小公司的前端建设的一些思考

在之前的企业项目开发中,做过一些前端基础建设和项目推进的工作。完成项目之后,一直没时间整理和反思在推进过程中,遇到的问题以及解决方案,由于前端团队人员较少,更多的是多人协作以及大家共同攻克一些问题。工具前端的编辑器,包括sublime,还有vscode,以及webstorm、atom这类编辑器,发展到现在,vscode成为了目前前端开发的主流编辑器在团队开发过程中,针对一些固定的插件,需要实现规范和统一。包括:tab缩进的大小,以及格式化的插件,例如在vue开发过程中,推荐使用Vetur进行格式化和代码约束,包括代码检查eslint这些工具。除了统一使用的插件作为规范以外,其他的插件作为个人爱

关于linux:CUDA CUDPP .so建设

CUDACUDPP.sobuilding我想在我的项目中使用CUDPP库。我已经从项目页面下载了源代码。不幸的是,当我运行"make"时,只有静态库构建。我查看了Makefile文件并没有找到任何动态库配置。我不想在项目中保留静态库-它完全是不可移植的方式。我的问题是:如何构建CUDPP的.so动态库,而无需编写自己的Makefile/手动编译它?也许有人已经这样做了?编辑:我已将"g"替换为"g-fPIC",将"gcc"替换为"gcc-fPIC",并将"nvcc"替换为"nvcc-Xcompiler-fpic"。当我从存档中解压缩obj文件并将它们链接到共享库时,我没有收到任何错误。但是,当

关于linux:CUDA CUDPP .so建设

CUDACUDPP.sobuilding我想在我的项目中使用CUDPP库。我已经从项目页面下载了源代码。不幸的是,当我运行"make"时,只有静态库构建。我查看了Makefile文件并没有找到任何动态库配置。我不想在项目中保留静态库-它完全是不可移植的方式。我的问题是:如何构建CUDPP的.so动态库,而无需编写自己的Makefile/手动编译它?也许有人已经这样做了?编辑:我已将"g"替换为"g-fPIC",将"gcc"替换为"gcc-fPIC",并将"nvcc"替换为"nvcc-Xcompiler-fpic"。当我从存档中解压缩obj文件并将它们链接到共享库时,我没有收到任何错误。但是,当