草庐IT

袋鼠云产品功能更新报告06期|数栈产品功能升级,做产品我们是认真的!

2023年已过半,袋鼠云开发团队和产品团队对数栈产品本身以及客户反馈的问题和痛点进行了持续性的更新和优化,包括对EasyMR监控告警功能的更新,以及对离线开发平台表生命周期逻辑的优化等,力求满足不同行业用户的更多需求,为用户带来极致的产品使用体验。以下为袋鼠云产品功能更新报告06期内容,更多探索,请继续阅读。EasyMR新增功能更新1.CGroup进程管控背景:因为环境或者代码bug导致单个进程影响整个平台使用,目前是手动重启服务解决问题,时效性低、成本相对较高。新增功能说明:EasyMR新增CGroup进程管控功能,对linux的一组进程包括CPU、内存、磁盘IO、网络等在内的资源使用进行限

基于袋鼠云实时开发平台开发 FlinkSQL 任务的实践探索

随着业务的发展,实时场景在各个⾏业中变得越来越重要。⽆论是⾦融、电商还是物流,实时数据处理都成为了其中的关键环节。Flink凭借其强⼤的流处理特性、窗⼝操作以及对各种数据源的⽀持,成为实时场景下的⾸选开发⼯具。FlinkSQL通过SQL语⾔⾯向数据开发提供了更友好的交互⽅式,但是其开发⽅式和离线开发SparkSQL仍然存在较⼤的差异。袋鼠云实时开发平台StreamWorks,⼀直致⼒于降低FlinkSQL的开发门槛,让更多的数据开发掌握实时开发能⼒,普及实时计算的应⽤。本文将为大家简单介绍在袋鼠云实时开发平台开发FlinkSQL任务的四种⽅式。脚本模式该模式是最基础的开发⽅式,数据开发人员在平

性能提升30%!袋鼠云数栈基于 Apache Hudi 的性能优化实战解析

ApacheHudi是一款开源的数据湖解决方案,它能够帮助企业更好地管理和分析海量数据,支持高效的数据更新和查询。并提供多种数据压缩和存储格式以及索引功能,从而为企业数据仓库实践提供更加灵活和高效的数据处理方式。在金融领域,企业可以使用Hudi来处理大量需要实时查询和更新的金融交易数据。在电商业务中,企业可以使用Hudi来跟踪订单数据,以及对订单进行实时更新和查询。在物流和供应链管理中,Hudi可以帮助企业实时处理和更新大量的物流数据,保证数据的一致性和可靠性。作为一站式大数据基础软件的袋鼠云数栈,基于ApacheHudi为客户提供了存量数据迁移、数据入湖、文件治理等完整支持能力。在这个过程中

一份配置轻松搞定表单渲染,配置式表单渲染器在袋鼠云的实现思路与实践

前段时间,袋鼠云离线开发产品接到改造数据同步表单的需求。一方面,数据同步模块的代码可读性和可维护性较差,导致在数据同步模块开发新功能和定位问题的效率很低。另一方面,整体规划上,希望在对接新的数据源时,可以不再关心表单渲染相关问题,从数据源中心新建数据源一直到数据源在数据同步模块的应用,全链路的表单都可以通过配置化的方式解决。本文就将以此为例,抛砖引玉,为大家详细介绍配置式表单渲染器实现的实践之路。数据同步表单背景数据同步模块整体上分为四个部分,数据来源表单、同步目标表单、字段映射组件和通道控制表单。其中前三个部分对应的代码非常混乱,代码量也很大,单个组件代码5000+行,这里着重说一下数据来源

ChatGPT解答一道1-2年级水平的袋鼠数学竞赛题,答案竟出乎意料

最近一段时间ChatGPT风光无限,可真是火出了圈内圈外。ChatGPT是一个人工智能聊天机器人程序,由OpenAI基于GPT-3.5架构的大型语言模型进行训练,通过人机交互的问答,和用户进行真实自然的交流。刚才正好在看一篇微信公众号的文章,题目是《让孩子爱上数学,这是最高级别的游戏》,就像如下图示的提问,让ChatGPT完成中文分词,并对每个token进行词性标注,结果十分惊艳。在好奇心的驱使下,又拿了一道1-2年级水平的袋鼠竞赛试题去挑战一下ChatGPT,解答的过程还是有推理有结论,尽管结果是错的!正确结果是:4只双峰驼。题目:Thereare10camelsinazoo.Thecame

Apache Hudi 在袋鼠云数据湖平台的设计与实践

在大数据处理中,实时数据分析是一个重要的需求。随着数据量的不断增长,对于实时分析的挑战也在不断加大,传统的批处理方式已经不能满足实时数据处理的需求,需要一种更加高效的技术来解决这个问题。ApacheHudi(HadoopUpsertsDeletesandIncrementalProcessing)就是这样一种技术,提供了高效的实时数据仓库管理功能。本文将介绍袋鼠云基于Hudi构建数据湖的整体方案架构及其在实时数据仓库处理方面的特点,并且为大家展示一个使用ApacheHudi的简单示例,便于新手上路。ApacheHudi介绍ApacheHudi是一个开源的数据湖存储系统,可以在Hadoop生态系

袋鼠云产品功能更新报告05期|应有尽“优”,数栈一大波功能优化升级!

这段时间,我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,包括对离线平台数据同步功能的更新,数据资产平台血缘问题的优化等,力求满足不同行业用户的更多需求,为用户带来极致的产品使用体验。以下为袋鼠云产品功能更新报告第五期内容,更多探索,请继续阅读。离线开发平台1.支持工作流参数背景:很多业务场景下一个工作流中需要有一些能生效于整个工作流的参数,统一配置其下所有子节点通用。新增功能说明:工作流父任务中支持创建工作流层级参数,工作流参数在工作流范围内生效。工作流下子节点支持通过${参数名称}的方式来引用该工作流参数。2.支持项目级参数背景:目前离线已支持的参数类型有以下几种:•全局参数-

袋鼠云“飞跃计划2.0”重磅发布:全面升级伙伴权益,共话数字生态

4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上重磅发布了袋鼠云生态伙伴计划——“飞跃计划2.0”,从商机、产品、联合方案及数据业务服务层面,与合作伙伴强强联手,共同打造数字化生态,同时在联合营销、渠道政策、赋能培训、产品开放、技术服务、交付实施等方面全面升级伙伴权益,共拓市场蓝图。并肩而耕共建强大生态圈今年2月份,国务院发布了《数字中国建设整体布局规划》,对数字中国建设做了整体性、体系化的布局,同时组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,确保数字中国战略的实施落地。在数字中国的推进落地过程中,涉及到包含硬件、数据库、

干货分享|袋鼠云数栈离线开发平台在小文件治理上的探索实践之路

日常生产中HDFS上小文件产生是一个很正常的事情,同时小文件也是Hadoop集群运维中的常见挑战,尤其对于大规模运行的集群来说可谓至关重要。数据地图是离线开发产品的基本使用单位,包含全部表和项目的相关信息,可以对表做相关的权限管理和脱敏管理操作,以及可以展示对应项目占用情况和其表的占用情况

干货分享|袋鼠云数栈离线开发平台在小文件治理上的探索实践之路

日常生产中HDFS上小文件产生是一个很正常的事情,同时小文件也是Hadoop集群运维中的常见挑战,尤其对于大规模运行的集群来说可谓至关重要。数据地图是离线开发产品的基本使用单位,包含全部表和项目的相关信息,可以对表做相关的权限管理和脱敏管理操作,以及可以展示对应项目占用情况和其表的占用情况