火山_草庐IT

抖音"凶猛"的幕后英雄，火山引擎 DataTester 累计做过 150 万次 A/B 测试

在国内互联网领域，字节跳动是最为推崇A/B测试的公司，旗下“抖音”、“今日头条”两大最著名产品，连APP的名字都是来源于A/B测试。A/B测试（也叫AB实验）也被称为对照实验，其方法是针对某个要优化的产品功能或策略，制定两个或多个方案，将用户流量随机分成多组，在保证每组用户特征相同的前提下，让不同组分别看到/使用不同的方案。最终结合科学的统计算法，通过实验数据对比来确定最优解。在字节，每天会开启1500余个A/B测试的运行，以抖音为例，应用上的每一个微小细节改动前必然也都会通过A/B测试来确认用户体验。一次，抖音的UI设计师提出，或许可以优化文字和视频内容之间的蒙层，让视频界面上的文字更突出，

quot 凶猛的比来实验人工智能

抖音"凶猛"的幕后英雄，火山引擎 DataTester 累计做过 150 万次 A/B 测试

在国内互联网领域，字节跳动是最为推崇A/B测试的公司，旗下“抖音”、“今日头条”两大最著名产品，连APP的名字都是来源于A/B测试。A/B测试（也叫AB实验）也被称为对照实验，其方法是针对某个要优化的产品功能或策略，制定两个或多个方案，将用户流量随机分成多组，在保证每组用户特征相同的前提下，让不同组分别看到/使用不同的方案。最终结合科学的统计算法，通过实验数据对比来确定最优解。在字节，每天会开启1500余个A/B测试的运行，以抖音为例，应用上的每一个微小细节改动前必然也都会通过A/B测试来确认用户体验。一次，抖音的UI设计师提出，或许可以优化文字和视频内容之间的蒙层，让视频界面上的文字更突出，

quot 凶猛的比来实验人工智能

火山引擎工具技术分享：用 AI 完成数据挖掘，零门槛完成 SQL 撰写

在使用BI工具的时候，经常遇到的问题是：“不会SQL怎么生产加工数据、不会算法可不可以做挖掘分析？”而专业算法团队在做数据挖掘时，数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作，也是一个提效的好办法。同时，对于专业数仓团队来说，相同主题的数据内容面临“重复建设，使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产，同主题不同内容的数据集？生产的数据集可不可以作为输入重新参与数据建设？1. DataWind 可视化建模能力来了由火山引擎推出的BI平台DataWind智能数据洞察，推出了全新进阶功能——可视化建模。用户可通过可视化拖、拉、连线操作，将复杂的数

挖掘 SQL data-id data style 人工智能大数据 $AI 数据挖掘

火山引擎工具技术分享：用 AI 完成数据挖掘，零门槛完成 SQL 撰写

在使用BI工具的时候，经常遇到的问题是：“不会SQL怎么生产加工数据、不会算法可不可以做挖掘分析？”而专业算法团队在做数据挖掘时，数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作，也是一个提效的好办法。同时，对于专业数仓团队来说，相同主题的数据内容面临“重复建设，使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产，同主题不同内容的数据集？生产的数据集可不可以作为输入重新参与数据建设？1. DataWind 可视化建模能力来了由火山引擎推出的BI平台DataWind智能数据洞察，推出了全新进阶功能——可视化建模。用户可通过可视化拖、拉、连线操作，将复杂的数

挖掘 SQL data-id data style 人工智能大数据 $AI 数据挖掘

火山引擎云原生大数据在金融行业的实践

1. 金融行业大数据需求1.1 云原生相比Hadoop的优势传统大数据集群通常基于Hadoop系统构建，传统大数据作业通常是以裸进程的形式运行在节点上，很容易受到节点上的其他进程或其他因素干扰，因此带来的作业稳定性问题经常困扰用户。一个实际的例子，如果一个Flink作业发生了延迟，找不到业务上的原因，但是观测到节点的CPU使用率比较高。用户通常选择杀掉节点上的其他作业，使机器负载下降，这时作业很有可能恢复了正常。但是，最终也没有定位到延迟的具体原因，一段时间后很可能会再次出现相同的问题，而且每次杀掉其他作业的处理方式非常繁琐，并且代价比较高。那么，在大数据场景下，云原生系统相比Hadoop系统

大数火山 strong data-id 大数据 $大数据

火山引擎云原生大数据在金融行业的实践

1. 金融行业大数据需求1.1 云原生相比Hadoop的优势传统大数据集群通常基于Hadoop系统构建，传统大数据作业通常是以裸进程的形式运行在节点上，很容易受到节点上的其他进程或其他因素干扰，因此带来的作业稳定性问题经常困扰用户。一个实际的例子，如果一个Flink作业发生了延迟，找不到业务上的原因，但是观测到节点的CPU使用率比较高。用户通常选择杀掉节点上的其他作业，使机器负载下降，这时作业很有可能恢复了正常。但是，最终也没有定位到延迟的具体原因，一段时间后很可能会再次出现相同的问题，而且每次杀掉其他作业的处理方式非常繁琐，并且代价比较高。那么，在大数据场景下，云原生系统相比Hadoop系统

大数火山 strong data-id 大数据 $大数据

火山引擎DataLeap数据血缘技术实现与具体用例

DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的基础能力。本文将聚焦数据血缘存储和血缘导出，分享在存储和导出数据血缘的模型设计以及优化，并介绍字节跳动在数据血缘建设过程中所遇到的挑战和技术实现以及数据血缘的具体用例，具体包括数据血缘模型、数据血缘优化、数据血缘用例、未来展望四个部分。本文介绍的数据血缘能力和实践，目前大部分已通过火山引擎DataLeap对外提供服务。一、数据血缘模

血缘 DataLeap span style 大数据 $数据血缘能

火山引擎DataLeap数据血缘技术实现与具体用例

DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的基础能力。本文将聚焦数据血缘存储和血缘导出，分享在存储和导出数据血缘的模型设计以及优化，并介绍字节跳动在数据血缘建设过程中所遇到的挑战和技术实现以及数据血缘的具体用例，具体包括数据血缘模型、数据血缘优化、数据血缘用例、未来展望四个部分。本文介绍的数据血缘能力和实践，目前大部分已通过火山引擎DataLeap对外提供服务。一、数据血缘模

血缘 DataLeap span style 大数据 $数据血缘能

火山引擎 DataLeap：揭秘字节跳动业务背后的分布式数据治理思路

字节的挑战与实践首先来看一个问题：“一家公司，数据体系要怎么搭建？”方案一：整体规划，系统架构驱动方案二：问题出发，业务价值驱动在字节跳动，我们选择的是方案二，即从业务遇到的问题出发，重视落地结果与业务过程，去解决实际的治理问题。基于这个理念，在数据治理过程中，字节跳动也面临以下三个挑战与机遇：业务特点：业务发展快、场景丰富、数据量大且形态各异。业务的线上服务及创新，都对数据有较强的依赖，核心业务数据延迟，质量问题将直接影响业务表现及发展。组织特点：扁平化的组织模式，分布式的组织管理。无行政手段或强组织约束，也无全局治理委员会，且数据从采集到应用全部的生产流程，没有全局规范，业务团队需要自

治理 DataLeap style data-id 大数据 $数据治理

火山引擎 DataLeap：揭秘字节跳动业务背后的分布式数据治理思路

字节的挑战与实践首先来看一个问题：“一家公司，数据体系要怎么搭建？”方案一：整体规划，系统架构驱动方案二：问题出发，业务价值驱动在字节跳动，我们选择的是方案二，即从业务遇到的问题出发，重视落地结果与业务过程，去解决实际的治理问题。基于这个理念，在数据治理过程中，字节跳动也面临以下三个挑战与机遇：业务特点：业务发展快、场景丰富、数据量大且形态各异。业务的线上服务及创新，都对数据有较强的依赖，核心业务数据延迟，质量问题将直接影响业务表现及发展。组织特点：扁平化的组织模式，分布式的组织管理。无行政手段或强组织约束，也无全局治理委员会，且数据从采集到应用全部的生产流程，没有全局规范，业务团队需要自

治理 DataLeap style data-id 大数据 $数据治理