草庐IT

陈胡:Apache SeaTunnel实现 非CDC数据抽取实践

导读:随着全球数据量的不断增长,越来越多的业务需要支撑高并发、高可用、可扩展、以及海量的数据存储,在这种情况下,适应各种场景的数据存储技术也不断的产生和发展。与此同时,各种数据库之间的同步与转化的需求也不断增多,数据集成成为大数据领域的热门方向,于是SeaTunnel应运而生。SeaTunnel是一个分布式、高性能、易扩展、易使用、用于海量数据(支持实时流式和离线批处理)同步和转化的数据集成平台,架构于ApacheSpark和ApacheFlink之上。本文主要介绍SeaTunnel1.X在交管行业中的应用,以及其中如何实现从Oracle数据库把数据增量导入数仓这样一个具体的场景。今天的介绍会

李阳:京东零售OLAP平台建设和场景实践

导读:今天和大家分享京东零售OLAP平台的建设和场景的实践,主要包括四大部分:管控面建设优化技巧典型业务大促备战--01管控面建设1.管控面介绍管控面可以提供高可靠高效可持续运维保障、快速部署小时交付的能力,尤其是针对ClickHouse这种运维较弱但是性能很高的OLAP核心引擎,管控面就显示得尤其重要。2.架构设计管控面的整体架构设计如上图所示,从开始请求、域名解析和分流规则,到达后端服务adminServer,adminServer有一层校验层,校验完成后会向队列中发送任务,worker会不断地消费队列中的任务,消费完成后会将任务的结果写到后端的存储。如果有大量的集群的部署、配额的更改,就

天空卫士陆明:数据法在企业如何落地

导读:数据安全立法2018年9月于十三届全国人大常委会列入立法规划。经过三次审议,在2021年6月10日,十三届全国人大常委会第二十九次会议正式表决通过,并于2021年9月1日起施行。从法律角度来说,国家对于数据安全越来越重视,作为企业该如何针对数据安全法进行数据安全治理的规划,最终进行对应的技术落地?本文将分享数据法在企业的落地。主要内容包括以下几大方面:背景介绍数据安全架构——DSG框架数据安全控制——CARTA模型技术总结--01背景介绍首先来看一下近几年企业数字化转型以及数据安全的发展趋势。从2000年开始,企业经历了三个不同的阶段,分别是IT的工匠阶段、工业化阶段以及数字化时代的阶段

罗强:腾讯新闻如何处理海量商业化数据?

导读:随着信息化时代的来临,信息呈现出爆炸式的增长。尤其是在移动互联网的推动下,每天大量信息涌入让人们应接不暇,腾讯新闻客户端的出现,就是以帮助用户寻找有用信息而出现。这时,面对海量的数据、繁多的业务,如何处理手中的数据,利用数据赋能是今天会议讨论的重点。今天的介绍会围绕下面三部分展开:背景介绍海量日志处理架构数据应用举例--01背景介绍首先介绍一下腾讯新闻的背景。团队目前承担腾讯新闻客户端,体育和新闻插件的创新业务的输入,广告和用户行为的数据采集、处理、计算和分析的工作。最大的特点就是数据多、业务广。数据庞大,业务应用多样,例如数据会被用于报表展示、算法模型的训练、产品决策等场景。--02海

阿里妈妈牟娜:定向广告新一代点击率预估主模型——深度兴趣演化网络

分享嘉宾:牟娜阿里巴巴高级算法工程师编辑整理:孙锴内容来源:DataFunAITalk《定向广告新一代点击率预估主模型——深度兴趣演化网络》出品社区:DataFun导读:本次带给大家分享是阿里妈妈在2018年做的模型上的创新——深度兴趣演化网络(DeepInterestEvolutionNetwork),分享将从以下几个方面展开——提出该模型的背景及原因该模型的结构详解该模型的最终效果--01背景#1、业务形态在介绍该模型创新背景之前,先来看一下我们的业务形态:当我们打开淘宝的时候,首先呈现的是一个banner形式的广告;在首页猜你喜欢场景下,或者购物链路的其他场景下,会出现一些单品的广告:在

徐童:视频人物社交关系图生成与应用

导读:在线社交媒体平台的发展,带来了细粒度检索、视频语义摘要等媒体智能服务的巨大需求。现有的视频理解技术缺乏深入的语义线索,结合视频中人物的社交关系才能更完整、准确地理解剧情,从而提升用户体验,支撑智能应用。这里主要介绍我们将动态分析和图机器学习相结合,围绕视频中的人物社交关系网络所开展的两个最新的工作。主要内容包括:问题背景关系图生成关系图应用未来展望--01问题背景**1.现有视频理解技术缺乏深入语义线索**现有的视频理解技术更多地着眼于描述画面里人物的行为、动作、身份,很少关注更深层的语义信息。例如上图中让子弹飞的例子,现有算法理解的是“两个人坐在一起,一个人表情愤怒,另一个人表情开心”

陈胡:Apache SeaTunnel实现 非CDC数据抽取实践

导读:随着全球数据量的不断增长,越来越多的业务需要支撑高并发、高可用、可扩展、以及海量的数据存储,在这种情况下,适应各种场景的数据存储技术也不断的产生和发展。与此同时,各种数据库之间的同步与转化的需求也不断增多,数据集成成为大数据领域的热门方向,于是SeaTunnel应运而生。SeaTunnel是一个分布式、高性能、易扩展、易使用、用于海量数据(支持实时流式和离线批处理)同步和转化的数据集成平台,架构于ApacheSpark和ApacheFlink之上。本文主要介绍SeaTunnel1.X在交管行业中的应用,以及其中如何实现从Oracle数据库把数据增量导入数仓这样一个具体的场景。今天的介绍会

李阳:京东零售OLAP平台建设和场景实践

导读:今天和大家分享京东零售OLAP平台的建设和场景的实践,主要包括四大部分:管控面建设优化技巧典型业务大促备战--01管控面建设1.管控面介绍管控面可以提供高可靠高效可持续运维保障、快速部署小时交付的能力,尤其是针对ClickHouse这种运维较弱但是性能很高的OLAP核心引擎,管控面就显示得尤其重要。2.架构设计管控面的整体架构设计如上图所示,从开始请求、域名解析和分流规则,到达后端服务adminServer,adminServer有一层校验层,校验完成后会向队列中发送任务,worker会不断地消费队列中的任务,消费完成后会将任务的结果写到后端的存储。如果有大量的集群的部署、配额的更改,就

京东零售大数据云原生平台化实践

导读:今天为大家介绍京东零售大数据的云原生平台化实践,主要包括以下几大方面内容:云原生的定义和理解云原生相关技术的演化京东大数据在云原生平台化上的实践云原生应用平台的发展分享嘉宾:刘仲伟京东架构师编辑整理:张明宇广州某银行出品社区:DataFun01/云原生的定义和理解1.云原生的定义云原生这个概念大家已经很熟悉了,但是否有一个准确的定义呢?每个人都在说云原生,但大家对云原生的理解是不同的。CNCF对云原生的定义如下:很多时候,大家会想应用容器化就等于云原生化,应用上了Kubernetes是否等于云原生化,使用了Kubernetes的API是否等于云原生化?答案是不一定,因为云原生的定义在变化

苗大东:京东基于强化学习的电商搜索排序算法

导读:电商场景的搜索排序算法根据用户搜索请求,经过召回、粗排、精排、重排与混排等模块将最终的结果呈现给用户,算法的优化目标是提升用户转化。传统的有监督训练方式,每一步迭代的过程中优化当前排序结果的即时反馈收益。但是,实际上用户和搜索系统之间不断交互,用户状态也在不断变化,每一次交互后排序结果和用户反馈也会对后续排序产生影响。因此,我们通过强化学习来建模用户和搜索系统之间的交互过程,优化长期累积收益。目前这个工作已经在京东全量上线。今天的介绍会围绕下面五点展开:搜索排序场景及算法概述强化学习在搜索排序中的建模过程基于RNN用户状态转移建模基于DDPG的长期价值建模规划与展望--01搜索排序场景及