浅谈AB实验及其在转转B2B报价系统中的应用

王梦龙 2023-03-28 原文

1.什么是 AB 实验?

AB 实验是为了验证某一个产品能力或者策略的好坏，制作两个（A/B）或多个（A/B/n）版本，在同一时间维度，分别让组成成分相同（相似）的访客群组（目标人群）随机的访问这些版本，收集各群组的用户体验数据和业务数据，并且结合统计学原理，分析评估出最好版本正式采用。

通过 AB 实验前置的验证收益，使决策有据可依。同时也可以利用 AB 实验分流出小部分流量进行测试，防止错误决策对整体用户产生负面影响。

2 为什么要引入 AB 实验

价格系统作为基础的公共服务，是需要满足各业务方的不同应用场景下的报价需求，提供不同场景下不同类型的报价能力。

同时，我们会针对各自的需求，去选择合适的报价方式，制定不同的报价策略，当市场价格出现变动，业务需求或目标及运营策略发生改变时，我们也需要进行调整，这种调整可能是策略上的调整、报价方选择的调整、算法模型的调整；也可能是新增报价策略、报价方式或引入新的算法模型。

但价格对于各使用业务方来说大多数情况下是敏感的，有些调整和改变，我们事先是不能够明确知道，到底能不能给业务带来正向的收益或达到预期的目标及效果，也很有可能出现未预知的负面结果。

所以我们不能全部简单粗暴的进行大规模的应用，而是需要建立在数据基础上的思维方式，通过数据反馈会告诉我们做出的决策好不好，哪里有问题，以及衡量可以带来多少确定性的增长。

而 A/B-test 正是我们进行决策验证的一个“利器”。

另外从产品研发流程来看，基于 AB 实验的研发流程相比传统产品的研发流程，其优势也是全方位的。

3 如何进行 AB 实验

A/B 实验可以看作一个“无尽”的学习环，不断的通过业务驱动做迭代，数据驱动做决策。通过提出假设、定义成功指标、检验假设（A/B 实验）、分析学习、发布、建立另一个假设，这就形成一个完整的闭环，通过多轮实验迭代，使策略趋于更优。

A/B 实验流程：

3.1 提出假设

实验的第一步就是明确实验需求产生的背景以及实验目标，即我们希望借助实验验证什么猜想假设达到什么样的目标，并且我们需要从用户角度以及数据角度去论证假设的结果。

这里我们需要先对总体均值提出一个假设，然后用样本信息去检验这个假设是否成立。我们把提出的这个假设叫做原假设，与原假设对立的结论叫做备择假设，如果原假设不成立，就要拒绝原假设，进而接受备择假设。

3.2 定义评价指标

评价指标是用于评估实验结果的各项指标数据，因为实验的效果主要是通过实验指标来判断的，所以对于评价指标的一个基本要求就是，评价指标要能反映实验者的意图，并且可测、易测。

在选取指标时，从指标重要程度来看，指标可以分为主要指标、次要指标和护栏指标三类：

主要指标：需要优化的目标指标，决定这个实验的最终发展方向，主要由实验的目标来选择；

次要指标：次要指标可以从多个角度反映实验策略的效果，辅助进行全量决策。

护栏指标：用于辅助保障 A/B 测试的质量，衡量 A/B 测试是否符合业务上的长期目标，不会因为优化短期指标而打乱长期目标，防止发生“捡芝麻掉西瓜”的情况。

3.3 实验设计

3.3.1 选取实验单位

首先要知道分流指的是我们直接将整体流量切割为几块，每个流量只能在一个实验中。AB 实验的核心思想在于寻找两组同质且与大盘类似的小流量对象群体，通过观察不同策略在这两组同质对象群体上的表现，来预估策略应用到全量后的效果。

因此，如何合理的分流找到这样的对象群体，则成为了影响 AB 实验评估准确性的关键因素。

这里需要注意分流对象与随机单元，分流对象是需要根据核心指标来确定的根据什么来进行分流；随机单元就是 AB 实验要达到随机的最小单元。

3.3.2 计算样本量

从理论上讲，样本量越多越好，因为当样本数量很少的时候，实验容易被新的样本点带偏，造成了实验结果不稳定，难以得出确信的结论。相反的，样本数量变多，实验说服性也更强。但是在现实操作中，样本量应该越少越好，这是因为：

流量有限：大公司因为用户数量足够多，同时跑几十个甚至上百个实验也没问题。但小公司流量有限，还要持续对产品进行迭代。在保证不同实验的样本不重叠的情况下，产品迭代的速度会大大降低。

试错成本大：如果使用 50%的流量进行实验，一周后结果表明实验组的总收入下降了 20%。算下来，实验在一周内给整个公司带来了 10%的损失。试错成本太高。

在计算样本量时有两种情况，一种是均值，一种是比率，两种情况计算方式有所差异：

均值：

比率：

我们根据自己有的数据带入公式就能计算出所需样本量了。

3.3.3 流量分割

确定好实验流量之后,就可以制定分流策略将实验流量划分到对照组和不同的实验组中

确保在实验前分出无差别的实验组和对照组，避免因流量分配不平衡导致的 AB 群组差异过大，最终造成对于实验结果的误判，在进行 AB 实验之前我们需要保证实验的分流是均匀的，一般实践中，主要采取 AA 空跑的方式来验证：

AA 空跑：针对选定的实验组和对照组，在上实验策略前先空跑一段时间。如果空跑期的样本量和各项指标均无显著差异，则认为实验分流是均匀的。这种方式的缺点是需要空跑期，会延长实验所需时间。（分流也可以前置在随机分流时观测两组历史数据的差异，差异大建议重新分流）

3.3.4 实验周期计算

实验周期的设定是个权衡的问题，一方面，我们希望有足够多的流量，保证实验策略可以充分体现出来；另一方面，也希望缩短实验周期、提升迭代效率、降低实验风险。

在评估周期的时候，有两点需要格外注意！！！

其一：周期效应。考虑到用户在周中和周末的表现存在差异，因此实验周期最好跨越一周，消除不同时间周期实验效果的不同。

其二：新奇效应。策略的调整对于用户而言，是从陌生到熟悉的过程，而在陌生阶段，往往会有一些不真实的表现，因此最好等实验指标趋于平稳之后再进行评估。

4 进行分流实验埋点上报

进行实验分流阶段其实就是按照事先设计好的实验计划进行线上执行,但需要注意的是需要验证实验进行是否符合预期的设定。

实验过程中会将实验标识标记到每个实验流量请求的日志中用于记录，然后数据计算系统根据带有实验标记的日志计算用户的各种实验数据指标，最终用于产出分析报表。

如发现实验过程中出现异常情况应及时预警进行处理或回退。

5 实验结果分析(假设验证)并决策

实验结束后，我们基于实验样本进行数据统计，进而验证实验前假设的正确性，我们得出这一有效结论的科学依据便是假设检验。

假设检验是利用样本统计量估计总体参数的方法; 对于原假设提出的命题，我们需要作出判断，要么原假设成立，要么原假设不成立。因为基于样本对总体的推断，会面临着犯两种错误的可能：第一类错误，原假设为真，我们却拒绝了；第二类错误，原假设为伪，我们却接受了。

显然，我们希望犯这两类错误的概率越小越好，但对于一定的样本量 n，不能同时做到犯这两类错误的概率很小。

在假设检验中，就有一个对两类错误进行控制的问题。一般来说，哪一类错误所带来的后果严重、危害越大，在假设检验中就应该把哪一类错误作为首要的控制目标。

在假设检验中，我们都执行这样一个原则，首先控制犯第一类错误的概率。这也是为什么我们在实际应用中会把要推翻的假设作为原假设，这样得出的结论更具说服力（我们有足够充分的证据证明原来确定的结论是错误的），所以通常会看到，我们把要证明的结论作为备择假设。

5.1 T检验

常见的假设检验方法有 Z 检验、T 检验和卡方检验等，不同的方法有不同的适用条件和检验目标。

Z 检验和 T 检验都是用来推断两个总体均值差异的显著性水平，具体选择哪种检验由样本量的大小、总体的方差是否已知决定。

在样本量较小且总体的方差未知的情况下，这时只能使用样本方差代替总体方差，样本统计量服从 T 分布，应该采用 T 统计量进行检验。T 统计量具体构造公式如下图所示，其中 f 是 T 统计量的自由度，S1、S2 是样本标准差。

T 检验的流程是，在给定的弃真错误概率下（一般取 0.05），依据样本统计量 T 是否落在拒绝域来判断接受还是拒绝原假设。实际上在确定弃真错误概率以后，拒绝域的位置也就相应地确定了。

使用 T 统计量进行判断的好处是，进行决策的界限清晰，但缺陷是决策面临的风险是笼统的。

例如 T=3 落入拒绝域，我们拒绝原假设，犯弃真错误的概率为 0.05；T=2 也落入拒绝域，我们拒绝原假设，犯弃真错误的概率也是 0.05。

事实上，依据不同的统计量进行决策，面临的风险也是有差别的。为了精确地反映决策的风险度，我们仍然需要 P 值来帮助业务来做决策。

5.2 利用 P 值决策

P 值是当原假设为真时，所得到的样本观察结果或更极端的结果出现的概率。如果 P 值很小，说明这种情况发生的概率很小，但是在这次试验中却出现了，根据小概率原理，我们有理由拒绝原假设，P 值越小，我们拒绝原假设的理由越充分。

P 值可以理解为犯弃真错误的概率，在确定的显著性水平下（一般取 0.05），P 值小于显著性水平，则拒绝原假设。

5.3 基于假设验证的科学评估

围绕着科学评估要解决的两个问题，实验前，针对圈定的流量使用假设检验，通过 AA 实验确保分出无差别的实验组和对照组；

实验后，基于实验前选定的用于验证假设结论的指标，构造 T 统计量并计算其对应的 P 值，依据 P 值帮我们做决策。

5.4 决策

实验结果分析,假设验证后就进入了决策阶段，根据实验分析结果决定是否继续优化实验策略再次实验或终止实验或进入实验放量阶段。

如果进入实验放量阶段，需要综合考虑三个因素：效率、质量、风险。对于一个实验，我们希望在评估正向的前提下，尽快上线。但往往由于策略 bug、新功能不符合预期、用户体感不好等问题，使得在放量阶段需要更加的谨慎，以下为一个标准的放量流程：

第一阶段：小流量阶段

此阶段衔接在小流量评估后，整体放量比例控制在（5%）以下，评估实验是否对指标有负向影响。同时验证策略的触发，以及排查是否存在潜在风险。在无风险的前提下，一般建议持续 3-5 日左右，进入下一个阶段。

第二阶段：放量阶段

这个阶段，随着样本量的逐渐放开，实验的结果也会更加精准；与此同时，伴随而来可能会出现流量压力等问题的发生，因此在此阶段需要跟进放量，观察是否有出现问题。逐级放量建议持续至少一周，以观测周中和周末的影响。

第三阶段：长期存放阶段

针对部分实验，如果希望长期观测实验效果，可以保留 5%以下的原始策略，作为「反转桶」。

6 总结

AB测试不能解决所有的问题，但是仍然不失为衡量线上优化迭代的最有效方式之一。可衡量的实验目标、有效的实验分流、实验结果的正确解读是AB测试成功的关键。

关于作者：王梦龙，转转研发技术部软件工程师

及其 B2B 的实验 data 大数据数据分析 $AB实验报价系统

有关浅谈AB实验及其在转转B2B报价系统中的应用的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby - rspec 需要 .rspec 文件中的 spec_helper - 2
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require，它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中，因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗？最佳答案我不在Bundler上工作，所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件，通常按照当前的惯例，只
ruby-on-rails - active_admin 目录中的常量警告重新声明 - 2
我正在使用active_admin，我在Rails3应用程序的应用程序中有一个目录管理，其中包含模型和页面的声明。时不时地我也有一个类，当那个类有一个常量时，就像这样:classFooBAR="bar"end然后，我在每个必须在我的Rails应用程序中重新加载一些代码的请求中收到此警告:/Users/pupeno/helloworld/app/admin/billing.rb:12:warning:alreadyinitializedconstantBAR知道发生了什么以及如何避免这些警告吗？最佳答案在纯Ruby中:classA