草庐IT

Visibility

全部标签

场景化、重实操,分享一个实时数仓实践案例

​大部分数据团队在进行实时业务建设的初期,都会出现烟囱式开发、一个任务搞定全部数据加工环节等问题,缺乏实时数据的管理和实时数仓分层建设的规范意识。随着实时场景的进一步丰富,出现了实时数据复用、业务方自助进行实时取数等需求,因此要求数据团队要像管理离线数据一样对实时数据进行有规范的实时数仓管理。本文将从一个实际业务场景和一个模拟数仓构建的案例来说明如何利用EasyData实时开发平台来建设实时数仓。1、实际业务场景1.1背景介绍业务方是某移动APP的运营团队,需求是要实时监控各类运营活动的ABtest的实验效果,以便业务方根据实验效果随时调整运营投放策略、投放目标用户和投放比例。1.2业务数据分

用艺术的眼光探索数据之美

独特的数据可视化技术,用于深入了解数据。当我们观想它时,它的美就显现出来了。可视化是一种更方便的方式,可以一目了然地了解大量数据。在深入分析的情况下,我们应该用数据图形表示技术的思想。我们经常使用barcharts,histograms,piecharts,boxplots,heatmaps,scatterplots,lineplots等等这些典型的图,这些图对于数据可视化是必不可少的。除了这些被广泛使用的情况外,还有许多精湛的情节却很少被使用。当我们考虑分析数据并以艺术方式表示时,这些图有助于发现洞察。1平行坐标图实际上,我们最多可以可视化3维数据。但有时,我们需要可视化超过3维的数据才能获

这才是真正的数据分析项目,而不是爬表

经常有同学抱怨:每天忙于取数,不知道有啥数据分析项目可以做。今天系统性介绍一下五大类数据分析项目。它们都是可以单独立项并且做出成绩的,一起来看一下。第一类:监控类监控类的需求很多,但做成项目就有一定难度了,因为很多时候业务方就是丢一纸临时取数需求,甚至一个电话过来口述一个朦胧的需求。这时候一定要做数据的同学自己打起12分精神了解需求背景。如果是:1、新上线的业务2、没有固定报表老业务3、多次开展的测试/活动都要和业务方坐下来详细聊聊,把业务流程,监控指标,关键KPI指标,定下来。至于输出形式可以看BI工具的完善程度和开发复杂度。能用看板的用看板,不能用看板的做自动化报表,总之把临时取数尽量干掉

聊聊大数据下的存算分离

最近跟好几个用户在交流的时候都提到了大数据的存算分离,有的是云厂商给他们推荐的方案,比如:某某运营商说最近xx云一直在给他们推荐存算分离化改造,背景是有个几十台的HDFS小集群,存储的文件数量比较多,经常性出问题,xx云的商务就跟他们说用对象存储如何如何来解决问题,听起来感觉有点道理,但是又拿不定主意,毕竟整个改造过程动静大、周期长,而且需要很大的投入,无论从建设周期还是成本投入上来看,都需要慎重考虑。有的是为了技术栈统一,比如:某某医药类企业,在整体技术架构重构时,已经引入了xx对象存储,基于技术栈统一的角度,想了解下大数据基于对象存储下存算分离是否可行,如果可行,有没有什么潜在的风险?上面

推荐三款非常优秀的开源插件

最近又有部分粉丝私信我,马上双十二到了。有么有营销相关的开源项目,我找啊找,不负有心人,真找到了。今天给老铁们分享一款非常优秀的抽奖开源项目。创作不易,喜欢的老铁们加个关注,点个赞,后面会持续更新干货,速速收藏,谢谢!全文大纲lucky-canvas插件基于Javascript+TS+Canvas开发的【大转盘/九宫格/老虎机】抽奖插件h5-Dooring一款功能强大,高可扩展的H5可视化编辑器.DIYh5页面制作更简单right-menu功能强大的右键菜单插件,支持JS/TS/Vue/React等多端框架lucky-canvas插件官网地址:https://100px.net/Github:

一篇带给你 Jenkins Pipeline as Code 实践

Jenkins在企业里面运用最广的开源持续集成服务器,今天我们就一起来探讨一下pipelineascode。记得收藏哦你后续一定能用得上!首先我们先来了解一下在没有Pipeline之前呢,我们大批量使用freestyle类型的项目来来作为我们的作业。那这种类型的作业呢它有一个特点就是所有的配置呢都是在Web页面上进行配置的那么这样的话呢就存在了一个问题。就是当我们去大批量的去修改这些参数的时候那这时候就需要我们在在控制台上面重复的去修改每一个作业的配置。Jenkins2.0之后推出了一个核心的特性就是pipeline。我们可以以代码的方式来描述我们整个流水线的运行过程。我们可以把代码存储到版本

一次性带你搞明白面试必问题,谈谈你对ES的理解

​有粉丝在评论区留言说,让我拍一期关于ES的视频。今天,我给大家分享一下我对ES的理解。1、ES是什么ES全称是ElasticSearch,它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分布式存储、检索速度快的特性。所以,我们经常会用它来实现全文检索的功能。Elastic官网对ES的定义已经不再是ElasticSearch这一个组件,而是指ElasticStack生态。而ElasticStack主要包括ElasticSearch、Logstash、Kibana,这三个经典组合也称之为ELK。ElasticSearch主要用来做数据存储、Logstash主要用

Blender 3.3 LTS 正式发布,最强免费开源三维图形图像软件

Blender3.3比Blender3.2晚了三个月,带来了很多变化,首先是对IntelArc显卡的支持,这需要Linux英特尔驱动程序22.26.23570或更高版本,AMDGPURenderingforVega显卡,如RadeonVII、RadeonRXVega系列和RadeonProWX910,在Linux上,用于图像的新FilmicsRGB颜色空间,以及使用新曲线对象的新头发工作流程。相关:Blender3.2发布,在Linux上启用AMDGPU渲染 https://www.linuxmi.com/blender-3-2.htmlBlenderUI已更新为在更多情况下显示候选者的文本字

0代码调戏千亿参数大模型,打开网页就能玩!无需注册即可体验

想体验千亿参数大模型的门槛,真是越来越低了!想让大模型回答问题?只需在网页端输入问题,运行二三十秒,答案就噌噌生成了。用的正是今年由Meta开源的OpenPretrainedTransformer(OPT),参数量达1750亿。如果是传统在本地运行,对算力可是个大考验。这就是由开源项目Colossal-AI支持的云端demo,无需注册即可上手体验,对硬件完全没门槛,普通笔记本电脑甚至手机就能搞定。也就是说,完全不用懂代码的小白,现在也能调戏OPT这样的大模型了。让我们来试玩一把~4种任务可试玩FAQ常见问题解答、聊天机器人、翻译、文章创作几种模式都可试玩。一些数值也能按需自己来调整,并且不涉及

DSQ: 一款万能的 SQL 本地文件分析工具,支持 Excel、JSON、CSV 等

​SQL简单好学,应该没有人不懂吧,据我了解不少非技术的工作,也是要具备使用SQL的能力。而对于非技术的人来说,平常经常接触到的文件类型是Excel、JSON、CSV等,而要做一些复杂的分析,非常依赖使用的软件工具,如果软件不支持,很多的分析是做不了,而且很多时候由于需要打开的文件太大,一些软件工具根本打不开。今天要推荐一个SQL工具dsq,能够对本地的Excel、JSON、CSV等文件进行分析,然后通过SQL语法来对数据进行筛选和分析,简直太棒了,这样的话结合其他工具,也能做一些自动化的分析和处理。以下就是一个很简单的使用示例:以上使用真的比在软件上面操作要方便太多了,而且是可以后续重复使用