剑客
关注科技互联网

Life Hacker:一位程序员奶爸和他的双胞胎宝宝,关于A/B测试不得不说的故事

Life Hacker:一位程序员奶爸和他的双胞胎宝宝,关于A/B测试不得不说的故事

我是一对双胞胎宝宝的爸爸,我的工作是写程序,业余爱好是用A/B测试来优化生活中的一切。有时候真的觉得我的宝宝是上苍给我最好的礼物,因为有了宝宝之后就再也不缺A/B测试的样本。

Life Hacker:一位程序员奶爸和他的双胞胎宝宝,关于A/B测试不得不说的故事

“我想知道怎么能让宝宝们睡的更好,”老婆在照顾宝宝睡觉的时候随口说道。程序员的思维方式告诉我,这个问题必须得到解决,为了宝宝。(难道不是处女座思维?)

软件开发者在看到问题时,第一时间就会想办法来做测试。很幸运,我知道有一个完美的系统,在可控和可测量的环境下能测试一些想法;更幸运的是,我家宝宝是一对双胞胎,这样试验就更容易了。噢,忘了说,这个完美的系统就是A/B测试。欢迎来到程序员奶爸的A/B测试!

Life Hacker:一位程序员奶爸和他的双胞胎宝宝,关于A/B测试不得不说的故事

奶爸的A/B测试科普

A/B测试在网上随处可见,不经意间,你每天可能会遇到没有上百次也有几十次A/B测试。所有大公司都会做A/B测试,把它作为一种测试和衡量想法表现情况的工具。 Google 每天运行上千次A/B测试,其中比较有名的一次就是对搜索结果的41种蓝色的测试。设计师说他们决定不了用哪两种蓝色,于是就测试了41种蓝色,哪种能带来更多的用户点击。 Facebook 通过用户反馈不断测试不同的用户体验。Amazon 甚至频繁地改变购买按钮和购物车布局,如果你在新电脑上登录或是看到朋友打开 Amazon 官网,可能会看到跟你略微不同的网站。

A/B测试用于测试一个或多个“对照组”与“控制组”或当前版本之间的不同。指标衡量通常基于用户行为比如点击或“转化”以对照组为基准做对比。拿 Google 为例,它们可能测试不同颜色对用户点击的影响。经过一段时间达到统计显著,通常是一周或两周,表现更好的指标会被选作赢家,并作为新的控制组。在这种情况下,当多个试验同时运行,或当用户百分比不是均匀分布时,会变得很复杂,需要复杂的统计学知识或使用许多强大的测试工具。在 Audible 和 Google ,一直都在做这种测试,这是观察用户实际表现最好的方式,比如用户会说什么,会做什么,他们做的会有那些不同。

说了这么多,那么A/B测试和我家宝宝的睡眠时间之间有什么关系呢?接下来我就会用A/B测试的方法来优化宝宝的A/B睡眠时间。

奶爸对宝宝睡眠时间的A/B测试

Life Hacker:一位程序员奶爸和他的双胞胎宝宝,关于A/B测试不得不说的故事

我决定用这种方法来测试我的10周龄大的双胞胎兄弟在屋内的睡眠情况,看是不是能增加最关键的指标:睡眠时间。

一个宝宝作为控制组,另一个宝宝作为实验组,以控制组为基准,我测试了几个关于睡眠时长的基础理论。

在所有试验中,准确的测量和数据跟踪至关重要。通常一个指标的成功选取是出于数据或测量能力的可用性。你肯定不想尝试测量指标比更改测试或测试输入耗时更长。幸运的是,测试睡眠时间小菜一碟,当宝宝们睡醒时把时间记下来就行。

这就是从他们出生那天医院的护士把宝宝交给我们时我这个超级奶爸一直在做的事。虽然跟踪数据很容易,但我也已经用了好几个笔记本。为此,我尝试把数据导入电子表格,这样能更直观地看到影响。

Life Hacker:一位程序员奶爸和他的双胞胎宝宝,关于A/B测试不得不说的故事

我们先测试了在睡前增加宝宝喂养量。

除了按照平时4盎司的量,我尝试了5盎司,6盎司。因为试验结果在好和坏之间循环,为了防止一个孩子作为对照产生偏见,我交替了测试和控制组。一个宝宝睡前喂养量较大的时候,另一个小孩就喂4盎司。

试验结果:不确定。两个宝宝在这期间的睡眠时间都增加了,宝宝的睡眠时间差不多一样长。其中有一天晚上睡眠时间延长了5.5小时,并且宝宝也吃了更多,但是这样一个数据点在数据集中是无关紧要的,果断去噪。超过5盎司的食物有很有可能让宝宝在饭后吐几分钟,这也是很难继续这样测试的原因。因为这个,就不再继续这个试验了,宝宝的健康最重要嘛。

Life Hacker:一位程序员奶爸和他的双胞胎宝宝,关于A/B测试不得不说的故事

接下来是测试在亲子博客上流传的一个小妙招,关于祛风剂的使用。据说这种混合的草本植物和香料,跟肯德基的混合物相反,会让胃里的回流和气体消失,尤其在晚上,带来更长时间的睡眠。

经过一周的测试,我们发现它确实帮助回流,虽然我们没有跟踪,但打嗝或放屁,似乎也减少了。睡眠的长度没有受到很大影响,但确实看到一个小幅度的增加,大概在20到30分钟之间,但这也可能是由于宝宝年龄的自然增加。

在测完祛风剂之后,我们对睡前给宝宝的额外喂食做了测试。宝宝们开始很自然地这样做,我们试图阻止它。然而,这似乎是一个很成熟的测试机会,所以我抓住了。许多宝宝在睡前会“集中”喂食一小段时间。

我们在前一次喂食后约1.5至2小时后给宝宝喂食,而正常情况下间隔是3小时。在试验中,我们尝试了113.40g,是他们通常白天食量的4/5。有时他们会在超过3/5时拒绝进食。在所有的实验中,这似乎是最好的结果,我们看到增加了一个多小时的睡眠,虽然试验里这种现象没有持续几天,但显然影响睡眠模式是需要时间的。

A/B测试的一个很好的教训是,有时会有一个几天的调整期,在找出新的对照和调整前,重要的是捕获调整期结果和调整后的结果。苹果公司之前在几个产品发布时,忽略了调整期,特别是地图产品。

最后,我测试了让兄弟俩在白天清醒的时间更长。我的假设是,他们会因此在夜间更累,结果睡得更长。这可能是真的,我们看到睡眠时间有轻微的增加,但没有把让他们保持清醒的压力和疲劳考虑进去,这也会让宝宝们不开心。晚上让他们安定下来睡觉也花了更长时间,因为他们过于疲劳和不开心。

测试的教训:不要为了一个小增益而牺牲其他指标。

这里的许多测试是不确定的,主要是由于相同的大小。如果有像 Facebook 这样的样本群体,测试可以在小段中完成,并且非常快速地实现统计意义。但对于双胞胎的试验来说,很难知道什么是真正的结果,什么是个性或自然进展。为了更准确地测试,我们可能需要增加样本大小,是时候生三胞胎了,也许可以结别人的三胞胎测试,我媳妇说她还没准备准备好生三胞胎!

对我家宝宝的A/B测试显示了测试 – 衡量 – 迭代过程的重要性。虽然几种方法没有显示出很大的改进,但放在一起的话就有可能。通过让对照组胜过控制组,堆积小的改进,继续尝试新事物并保持前进,你不需要搬动整座大山,只需要长期移动小的山石,通过这种方式,宝宝也可以茁壮成长。幸运的是,我们作为父母的理智,幸福和时光也会随着宝宝的长大一起成长。

更幸运的是,媳妇威武,生了一对双胞胎给我,这样今后可以尝试更多可行的A/B测试,来优化宝宝和我们的生活。

本文编译自:http://www.lifehacker.com.au/2016/11/how-i-used-ab-testing-to-hack-my-kids/

吆喝科技 :国内唯一同时支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 测试 服务的专业 SaaS 平台。支持线上灰度发布、多维度数据统计分析、科学的流量分配系统、一键发布新版本无需应用市场审核、定向测试。

用数据帮助用户优化产品,提升转化、留存和你想要的一切。 AppAdhoc 用数据验证最佳方案,提高产品设计、研发、运营和营销效率,降低产品决策风险。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址