草庐IT

数用一体

全部标签

重构实时离线一体化数仓,Apache Doris 在思必驰的应用实践

作者:赵伟,思必驰大数据高级研发,10年大数据开发和设计经验,负责大数据平台基础技术和OLAP分析技术开发。社区贡献:Doris-spark-connector的实时读写和优化。业务背景思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,致力于成为全链路智能语音及语言交互的平台型企业,自主研发了新一代人机交互平台DUI和人工智能芯片TH1520,为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。思必驰于2019年首次引入ApacheDoris,基于ApacheDoris构建了实时与离线一体的数仓架构。相对于过去架构,ApacheDoris凭借其灵活

HarmonyOS元服务端云一体化开发快速入门(下)

四、关联云开发资源为工程关联云开发所需的资源,即在DevEcoStudio中选择您的华为开发者帐号加入的开发者团队,将该团队在AGC的同包名应用关联到当前工程。具体操作如下:1.(可选)如您尚未登录DevEcoStudio,点击“Signin”,在弹出的帐号登录页面,使用已实名认证的华为开发者帐号完成登录。2.登录成功后,界面将展示帐号昵称。3.点击“Team”下拉框,选择开发团队。注意:团队帐号持有者需为团队完成实名认证。4.关联应用。选中团队后,系统根据工程包名在该团队中自动查询AGC上的同包名应用。如查询到应用,选中该应用,点击“Finish”即可。如查询到的应用尚未关联任何项目,则无法

网络安全设备-等保一体机

本文为作者学习文章,按作者习惯写成,如有错误或需要追加内容请留言(不喜勿喷)本文为追加文章,后期慢慢追加等保一体机的功能等保一体机产品主要依赖于其丰富的安全网元(安全网元包括:防火墙、IPS、WAF、网络审计、数据库审计、EDR、VPN、基线、漏扫、堡垒机、日志收集分析等安全功能,这些功能都是以虚拟化的形式进行安全交付;防护范围涵盖网络安全、主机安全、应用安全、数据安全)。这使其不仅具有便捷部署、统一交付、灵活拓展等特点,可以帮助客户实现全网统一管控、威胁可视,有效应对网络环境中的多种安全威胁。等保一体机的可以解决的安全现状时间成本和管理成本高、实施复杂、运维管理难等难题等保一体机的优点1、综

深入浅出流批一体理论篇——数据架构的演进

这篇文章的主要内容包括:1、数据架构的演变历史与各种架构的优缺点。2、流批一体的价值。3、流批一体架构中流与批的关系。一、前大数据时代人人都知道罗马不是一天建成的,但没人告诉过你罗马是怎样一天天建成的。你看见罗马时,它就已经是罗马了。当我进阿里时,正是这样的感觉。我没有经历过阿里数据架构(包括平台工具)从0到1的过程。我相信很多阿里老员工也没有未见得全经历过。因为从行业视角来看,这是一个长达二三十年的过程,阿里作为先行者本身也是摸着石头过河。很多年轻一些的阿里员工看到当前的架构设计,他们的感受大概就是:“不就该是这样吗?不然还能怎样?”鲁迅就有话说了:“从来如此,便对么?”好在我前些年辗转了多

Flink流批一体计算(20):DataStream API和Table API互转

目录举个例子连接器下载连接器(connector)和格式(format)jar包依赖管理 如何使用连接器举个例子StreamExecutionEnvironment集成了DataStreamAPI,通过额外的函数扩展了TableEnvironment。下面代码演示两种API如何互转frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.tableimportStreamTableEnvironmentfrompyflink.common.typeinfoimportTypesenv=StreamExecutionEnv

字节基于 Hudi 的批流一体存储实践

一、背景与挑战首先来介绍一下相关背景。传统数仓存在实时和离线两条链路,来满足业务对于时效数据的时效性和数据量的不同需求。离线会维护历史的全量视图,实时会维护增量视图,最后在服务层去进行数据的汇总,从而支持后续的在线的serving、OLAP查询以及看板的应用等等。 因为处理场景的差异,在实时和离线数仓的具体实现上,依赖的底层存储计算引擎基本上是完全隔离的,实时依赖的主要是以Flink为代表的流式计算引擎来做计算,而离线依赖主要是以Spark为代表的引擎,实时主要依赖KV或MQ这样的多种存储选型。离线则常常采用Hive为代表的存储引擎,传统的数仓架构,它本质上结合了流计算和批计算的优势,通过两套

基于数据湖的流批一体:flink1.15.3与Hudi0.12.1集成,并配置基于CDH6.3.2的hive catalog

前言:为实现基于数据湖的流批一体,采用业内主流技术栈hudi、flink、CDH(hive、spark)。flink使用sqlclient与hive的catalog打通,可以与hive共享元数据,使用sqlclient可操作hive中的表,实现批流一体;flink与hudi集成可以实现数据实时入湖;hudi与hive集成可以实现湖仓一体,用flink实时入湖,用spark跑批处理。由于方案中中采用的CDH6.3.2是官方最后的开源版本,而flink与hudi是社区近期发布的开源版,网上几乎没有关于它们集成的资料,近期为完成它们集成费了不少神,特写出来分享给大家,有问题可一起交流。以下为实现hu

落地 DevOps,探索高效研发运营一体化解决方案

  前言与概述伴随着企业业务的快速发展,为了支撑业务发展,提高IT对业务的支撑能力建设。在研发工程协同方面,希望加强代码管理,实现持续构建、自动化测试、自动化部署、自动化运维,同时加强产品的安全和质量管理;在研发管理协同方面,希望实现从需求提出、需求规划、需求设计需求设计、需求开发、需求测试、需求上线的端到端的管理,并支持瀑布模型和敏捷模型的项目开发。基于以上背景,企业更希望借助研发运营一体化体系的建设和DevOps工具平台的建设赋能研发,提高质效。什么是DevOpsDevOps(英文Development和Operations的组合)是一组过程、方法与系统的统称。用于促进开发(应用程序/软件

构建一体化云原生安全防护体系,天翼云红盾护航企业云上安全!

8月25日,由中国信通院、中国通信标准化协会主办的“2023首届SecGo云和软件安全大会”在北京召开。会上公布了2023年度可信安全最新评估结果,中国电信天翼云顺利通过首批云堡垒机能力评估,云安全能力再获认可。天翼云科技有限公司云网安全事业部产品总监宋志明参会发表演讲,介绍了天翼云在一体化云原生安全防护体系方面的思考与实践。 近年来,云原生技术逐渐成为企业上云的重要发展方向,云原生安全作为新的安全理念被频频提出,成为安全领域的重要赛道。越来越多企业以原生思维推进云上安全建设、部署与应用,以应对日趋复杂且多元化的安全管理挑战。作为云服务国家队,天翼云肩负维护网信安全的重要责任和使命。为满足各行

MaxCompute湖仓一体方案新能力

一、增量更新和处理架构1、设计增量更新架构的背景当前数据业务场景日趋复杂, 对于时效性要求低的单一全量数据处理场景,MaxCompute可以较好地满足需求。时效性要求很高的秒级实时数据处理或者流处理,需要使用实时系统、流系统来满足需求。但对于大部份业务场景,通常并不要求秒级数据更新可见,更多的是分钟级或者小时级的增量数据处理场景,同时也会有海量数据的批处理场景。对于此类业务场景,使用单一引擎或联邦多引擎都会存在一些劣势。如图所示,如果使用单一的MaxCompute离线批量处理链路,分钟级的数据和全量数据做处理和存储,会存在冗余的计算和存储成本,时效性也不能较好地得到满足。但如果单纯使用实时系统