先從一個(gè)故事開始。一個(gè)真實(shí)的,我們的鄰邦的故事。
我們都知道隔壁鄰居那邊鬧變種病毒的疫情很厲害。
但是相當(dāng)長(zhǎng)一段時(shí)間,無論是疫苗還是醫(yī)療物資都是極端短缺的。
所以,那邊抵抗病毒,頗有些聽天由命的味道。
但是鄰居們不信命,或者說,他們相信比命更牛的東西,沒錯(cuò),就是信牛。
牛的尿,可能對(duì)植物的生長(zhǎng)有益處,但是用于防治新冠,如同其口味一樣,真是一言難盡。
鄰居們卻相信來自牛的圣水,具有神奇的效果。
于是有一些人喝了牛尿,相信自己絕對(duì)不會(huì)染上新冠病毒。之后,他們確實(shí)也沒有感覺自己染上新冠病毒。
我們的友邦大眾于是紛紛效仿,相信自己終于有了防治新冠的可靠武器。

這樣的事情,講給任何一個(gè)智力正常的中國(guó)人,都只會(huì)哈哈一笑。但是,我們?cè)撛趺磶椭麄冋f明牛尿毫無效果呢?
我們需要用科學(xué)的方法來證明。這個(gè)科學(xué)方法,并不是去化驗(yàn)牛尿在人體內(nèi)殺滅新冠病毒的效果,而是認(rèn)認(rèn)真真做喝牛尿和不喝牛尿的抗病毒效果的比較。
我們需要讓兩組數(shù)量相等且足夠的人(假設(shè)每組都有2000人),生活在同一個(gè)暴露環(huán)境下,一組人天天喝牛尿,此外啥也不做,而另外一組人戴口罩、打中國(guó)疫苗。之后的幾個(gè)月內(nèi),記錄這些人罹患新冠肺炎的數(shù)量。
如果喝牛尿那一組的得病人數(shù)遠(yuǎn)遠(yuǎn)高于另外一組,并且不低于甚至遠(yuǎn)高于全國(guó)人的新冠肺炎感染率,那就說明喝牛尿什么卵用也沒有。
這就是類似于我們所說的A/B測(cè)試:為了搞清楚什么有效什么無效,把測(cè)試對(duì)象分成兩個(gè)或者若干個(gè)組,然后在同時(shí)暴露在其他變量都一樣的環(huán)境下,看看每組測(cè)試對(duì)象的變化是什么。
醫(yī)學(xué)上為了測(cè)試盡可能準(zhǔn)確不受任何因素甚至不受病人或醫(yī)生的心理暗示影響,往往會(huì)讓各組患者吃看起來完全沒有區(qū)別的藥品(只是部分測(cè)試組的藥品只含有安慰劑),連醫(yī)生都不知道哪組患者吃的是藥品,哪組吃的是安慰劑。這也就是所謂的“雙盲”(患者和醫(yī)生都不知道)的測(cè)試。
A/B測(cè)試這個(gè)方法本來來源于醫(yī)學(xué)界,可是引入到互聯(lián)網(wǎng)世界中之后,卻大放異彩了起來!
很多時(shí)候,你都會(huì)覺得,自己的老板或者同事,為什么對(duì)一個(gè)錯(cuò)誤的方法懷有執(zhí)念,就像喝牛尿的隔壁鄰居一樣,但還怎么都說服不了。
著急沒用,A/B測(cè)試有用!
01 A/B測(cè)試不僅是一個(gè)方法,更是一個(gè)企業(yè)的核心優(yōu)化策略
比如,爭(zhēng)論哪個(gè)素材更有效?A/B測(cè)試一下,讓這兩個(gè)素材同時(shí)跑在自己的廣告上,流量隨機(jī)平分給它們,隨后我們可以看到哪個(gè)CTR好,而且是一直好,那么大家的爭(zhēng)吵可以閉嘴了。但A/B測(cè)試顯然不只是“讓爭(zhēng)吵閉嘴”這點(diǎn)作用。A/B測(cè)試的核心價(jià)值在于,它是一個(gè)將定性決策轉(zhuǎn)化為定量決策的重要方法。盡管將定性決策轉(zhuǎn)化為定量分析的方法有很多,但沒有任何一個(gè)方法有A/B測(cè)試這么直觀、科學(xué)、可信,且易于操作。
國(guó)外有很多例子,說A/B測(cè)試怎么樣給企業(yè)帶來神奇的變化。
比如Linkedin用A/B測(cè)試大幅度提升了Premium產(chǎn)品的轉(zhuǎn)化,并且將A/B測(cè)試作為其增長(zhǎng)優(yōu)化的一個(gè)持續(xù)的、系統(tǒng)的工程。
又比如,谷歌一直將A/B測(cè)試作為其產(chǎn)品優(yōu)化的基本方法,不僅僅包括其UI的修改,也包括其產(chǎn)品算法的修改,甚至是新產(chǎn)品問世,都要先進(jìn)行大量的A/B測(cè)試。谷歌A/B測(cè)試有時(shí)候會(huì)進(jìn)一步上升復(fù)雜度為多變量測(cè)試(考慮到更多變量都需要測(cè)試的情況)。
還比如,微軟的搜索引擎Bing,一直在任何UI微調(diào)上都堅(jiān)持A/B測(cè)試。在一篇關(guān)于微軟Bing的優(yōu)化文章上說:Bing對(duì)于什么樣的文字顏色(加重顯示顏色)做了大量的測(cè)試,最終深藍(lán)和綠色的配合,要比單純的深藍(lán)或者綠色的文字顯示更能引起用戶的點(diǎn)擊,這一組合要比其他顏色每年帶來更高的點(diǎn)擊收益,多達(dá)一千萬美元。
亞馬遜在購(gòu)物流程的優(yōu)化上,全部應(yīng)用A/B測(cè)試作為核心優(yōu)化策略。小到一個(gè)按鈕的變化,大到一個(gè)流程的改變。例如,在用戶購(gòu)物的過程中推銷自己的信用卡,需要回答究竟應(yīng)該將信用卡放在哪個(gè)購(gòu)物環(huán)節(jié)進(jìn)行推銷合適的問題。A/B測(cè)試的結(jié)論是:放在購(gòu)物環(huán)節(jié)的越后端越好。
總之,并非當(dāng)大家對(duì)于什么樣的用戶交互會(huì)更好這樣的問題懸而未決的時(shí)候,才會(huì)想起A/B測(cè)試,A/B測(cè)試本身就是一個(gè)極佳的、必備的增長(zhǎng)策略或優(yōu)化策略。
國(guó)內(nèi)的大廠,用A/B測(cè)試也是家常便飯。國(guó)內(nèi)最喜歡做A/B測(cè)試的是字節(jié)跳動(dòng)。據(jù)說“今日頭條”和“抖音”這兩個(gè)名字就是參考了A/B測(cè)試的結(jié)果。張一鳴說,哪怕99.9%的把握覺得這是一個(gè)好名字,測(cè)一測(cè)又有什么神馬不可呢?不僅如此,字節(jié)還專門給自己開發(fā)A/B測(cè)試工具,并且將A/B測(cè)試融入自己的企業(yè)文化。這家企業(yè)這么多年的快速發(fā)展,A/B測(cè)試功不可沒。
A/B測(cè)試為什么應(yīng)該是一個(gè)企業(yè)增長(zhǎng)的核心優(yōu)化策略?簡(jiǎn)單講,三個(gè)方面。
第一:將定性決策可信、直觀、科學(xué)的定量化。這個(gè)剛剛已經(jīng)說了。
第二:比任何推演分析、任何歸納或者演繹都要更能洞察消費(fèi)者的意圖或需求。因?yàn)槭钦鎸?shí)的用戶,真實(shí)的環(huán)境,并且嚴(yán)格控制其他變量的干擾。
第三:實(shí)現(xiàn)難度較低,風(fēng)險(xiǎn)可控,企業(yè)可以大范圍、多頻次地進(jìn)行。
或者,一句話也可以說明白:如果一個(gè)企業(yè)能夠保持做正確的事情,或是保持做出正確的選擇,那么這個(gè)企業(yè)沒有理由不增長(zhǎng),A/B測(cè)試就是保證我們能夠做正確的事情的核心武器,也是很多企業(yè)能夠持續(xù)增長(zhǎng)背后的秘密之一!
02 A/B測(cè)試,或許跟你想的不一樣
A/B測(cè)試如此重要,但總聽到一些朋友說,A/B測(cè)試沒啥用。對(duì)一個(gè)事情見仁見智很正常,不過我還是要說,A/B測(cè)試或許跟你想象的不一樣。
舉個(gè)例子,如果一個(gè)A/B測(cè)試的結(jié)果,表現(xiàn)出的是A和B的結(jié)果區(qū)別不大,無法在統(tǒng)計(jì)學(xué)意義上分辨出誰更好,你會(huì)怎么看待這一情況。
大部分人都會(huì)認(rèn)為,這個(gè)實(shí)驗(yàn)沒有分出勝負(fù),所以A/B測(cè)試在這個(gè)實(shí)驗(yàn)上沒有給出什么有用的信息。
但是,A/B測(cè)試不僅僅只是為了給你一個(gè)“你期望的答案”(事實(shí)上很多時(shí)候答案并不會(huì)你的期望,否則A/B測(cè)試也就沒有意義了),而是,給了你一個(gè)觀察在不同變量的情況下,人們的行為會(huì)發(fā)生何種相應(yīng)改變的機(jī)會(huì),也給你了你一個(gè)分析這些改變背后蘊(yùn)含著何種“道理”的機(jī)會(huì)。
比如,你在同一個(gè)app的兩個(gè)不同界面上,或者兩個(gè)不同頁面版本上的用戶行為,肯定是不同的。這些不同又可以通過用戶行為分析工具反映出來。也就是說,A/B測(cè)試給你的不只是結(jié)果,光看結(jié)果實(shí)在是太大材小用了,A/B測(cè)試給了你非常好的洞察消費(fèi)者意圖和行為邏輯的機(jī)會(huì)。基于這些洞察,你可以做出更好的C版本,然后基于A/BC三個(gè)版本,繼續(xù)進(jìn)行測(cè)試。
不過,A/B測(cè)試的能力還遠(yuǎn)遠(yuǎn)不止這些。或者說,只是分流人群做個(gè)比較,以及洞察消費(fèi)者,仍然不是A/B測(cè)試的全部。今天的A/B測(cè)試有很多進(jìn)化,它也遠(yuǎn)遠(yuǎn)不只是一個(gè)分析工具,而是具有更多主動(dòng)性的功能——所謂主動(dòng)性,是指A/B測(cè)試的很多功能能夠直接作用于營(yíng)銷,在甚至不需要人的干預(yù)下提升營(yíng)銷和運(yùn)營(yíng)的績(jī)效。
我們看看它都有哪些我們可能并不知曉的能耐。
測(cè)試推送
我們都知道推送消息(push notification)這個(gè)事情跟創(chuàng)意的文案關(guān)系非常大。
A/B測(cè)試當(dāng)然可以測(cè)試哪個(gè)文案效果(點(diǎn)開率)更好,就跟前面說的測(cè)試不同創(chuàng)意的CTR一樣,這似乎毫無再講的必要。
不盡然。
今天的A/B測(cè)試其實(shí)早已經(jīng)不是只測(cè)試一下哪個(gè)的點(diǎn)擊率好那么“幼稚”,A/B測(cè)試的工具,能夠作用于推送消息的后臺(tái),在初步測(cè)試的基礎(chǔ)上,自動(dòng)調(diào)整那個(gè)有更好點(diǎn)擊率的消息,讓它有更多的被人看到的可能。如果這個(gè)消息被更多人看到后,它的點(diǎn)擊率仍然比另外的版本高,那么A/B測(cè)試工具能夠進(jìn)一步讓它有更多的“曝光”。
當(dāng)然,實(shí)際的調(diào)優(yōu)不是這么機(jī)械的。因?yàn)楫吘共煌南⑻攸c(diǎn)不同,有的可能慢熱,一開始如果效果不好,那么它豈不是永遠(yuǎn)沒有“出頭之日”了。
實(shí)際在A/B測(cè)試中不斷調(diào)優(yōu)是在算法的控制下完成的。例如常用的貝葉斯決策樹,能夠在每個(gè)方案中都有多個(gè)變量的情況下找到最優(yōu)解。
這就是在A/B測(cè)試工具控制下的“賽馬”機(jī)制。
用在推送上的A/B測(cè)試,本質(zhì)上是“一邊推送、一邊測(cè)試、一邊優(yōu)化”,不斷自動(dòng)化地提升推送的效率和最終打開的效果。A/B測(cè)試的實(shí)驗(yàn)做完了,推送也完成了,并且?guī)缀蹩梢哉J(rèn)為是以最佳方式將推送完成的。
服務(wù)端編程實(shí)驗(yàn)
推送的進(jìn)化只是小兒科,從服務(wù)端實(shí)現(xiàn)A/B測(cè)試,則是具有重大意義的根本性提升。
很多年前,在我剛剛接觸A/B測(cè)試的時(shí)候,A/B測(cè)試還只是在客戶端實(shí)現(xiàn)的。簡(jiǎn)單講,就是人群的分流發(fā)生在客戶端,比如通過瀏覽器上的URL跳轉(zhuǎn),或是給不同的人發(fā)不同的APP版(或是在不同的時(shí)間發(fā)不同的版進(jìn)行測(cè)試)來實(shí)現(xiàn)。
客戶端A/B測(cè)試的缺點(diǎn)是,任何一個(gè)測(cè)試中的變化都要重新上線新的版本,工作量大、麻煩,而且無法實(shí)現(xiàn)基于實(shí)時(shí)測(cè)試結(jié)果的動(dòng)態(tài)化的調(diào)優(yōu)。
服務(wù)端編程實(shí)驗(yàn),則完全改變這一狀況。所有的用戶拿到的都是同一個(gè)版本下的頁面或APP,不過,不同的隨機(jī)的用戶,看到的設(shè)計(jì)或內(nèi)容卻不同,并且所有的不同都可以通過程序(腳本)進(jìn)行控制。這種不同是在服務(wù)端直接針對(duì)每個(gè)用戶提供的,是通過服務(wù)端編程實(shí)現(xiàn)的。
對(duì)于APP上的A/B測(cè)試,這種方式極為有用,這種方式不僅不需要用戶額外下載新的版本的APP,更可以隨時(shí)進(jìn)行動(dòng)態(tài)調(diào)整,從而在APP上也能實(shí)現(xiàn)類似于上面推送測(cè)試時(shí)的智能化的動(dòng)態(tài)調(diào)優(yōu)。
因此,服務(wù)端編程也大幅度降低了A/B測(cè)試的工作量,并讓A/B測(cè)試的進(jìn)行變得非常便捷,且無需打擾用戶。更重要的是,基于服務(wù)端的編程實(shí)驗(yàn),能夠進(jìn)行更為復(fù)雜的測(cè)試(實(shí)驗(yàn))設(shè)計(jì),同樣的設(shè)計(jì)在客戶端上進(jìn)行的話,部署起來就會(huì)非常復(fù)雜而不具可行性。
廣告投放RTA實(shí)驗(yàn)
A/B測(cè)試另一個(gè)好玩的是廣告投放RTA的實(shí)驗(yàn)。
我們都知道RTA廣告是基于廣告主自己一方數(shù)據(jù)的廣告投放方式。
投放的效果,實(shí)際上取決廣告主自己人群的圈選。
在這個(gè)場(chǎng)景下接入A/B測(cè)試,則是將動(dòng)態(tài)調(diào)優(yōu)的方法,引入到RTA中。
在廣告主圈選出適合投放的人群之后,A/B測(cè)試會(huì)對(duì)每個(gè)人投放之后的結(jié)果進(jìn)行回收、比較,自動(dòng)分析哪些人群和哪些創(chuàng)意具有更好的匹配關(guān)系,甚至是每個(gè)個(gè)體和創(chuàng)意的匹配關(guān)系,從而實(shí)時(shí)指導(dǎo)RTA的投放以更優(yōu)化的方式進(jìn)行。
事實(shí)上,這種基于A/B測(cè)試方法的智能化的流量調(diào)優(yōu)不僅僅在推送、RTA廣告等領(lǐng)域十分好用,在所有本質(zhì)上需要進(jìn)行推薦的場(chǎng)景下,都完全適用。
我很早以前就說過,互聯(lián)網(wǎng)這個(gè)傳統(tǒng)事物,進(jìn)化到今天的數(shù)字世界的一個(gè)核心特征,就是無處不在的推薦——因人而異、量體裁衣的推薦。而推薦的質(zhì)量高低,很大程度上決定了用戶體驗(yàn)的好壞,以及商業(yè)轉(zhuǎn)化達(dá)成效率的高低。
所有的本質(zhì)上是推薦的場(chǎng)景,都適用于A/B測(cè)試的智能流量調(diào)優(yōu)。
灰度發(fā)布
A/B測(cè)試還可以用來做灰度發(fā)布。
因?yàn)锳/B測(cè)試是可以非常好的控制被測(cè)試的人群的數(shù)量。如果有一個(gè)新版,要發(fā)布,我可以少部分人慢慢過渡,如果這些人感覺不錯(cuò),我再逐步放大到更大的人群。
03 A/B測(cè)試,科學(xué)性很重要!
如果你看了上面的內(nèi)容,對(duì)A/B測(cè)試感興趣,那么下面的內(nèi)容也同樣值得閱讀。因?yàn)椋煤肁/B測(cè)試,了解上面的那些應(yīng)用場(chǎng)景還不足夠,畢竟再好的工具,也要科學(xué)使用,否則就無法發(fā)揮效力,甚至是產(chǎn)生反作用。
讓A/B測(cè)試能夠很有科學(xué)性地為我們所用,有如下要求。
第一,如果你要做出真正有結(jié)論的A/B測(cè)試,對(duì)樣本量是有要求的。顯然,樣本量越多越好。這里有一個(gè)告訴你如何計(jì)算A/B測(cè)試最小樣本量的工具:https://www.surveysystem.com/sscalc.htm。
第二,基于A/B測(cè)試的優(yōu)化,不要進(jìn)行大幅度的修改,而應(yīng)該是小步迭代,不斷測(cè)試。而不是一次測(cè)試兩個(gè)或者多個(gè)差異巨大的版本。
第三,很多的測(cè)試,并不會(huì)給你明確的誰更好的答案。因此,如同我前面所說的,勝負(fù)很多時(shí)候并不是A/B測(cè)試最重要的。分析用戶在不同環(huán)境下行為的不同,以及背后的機(jī)理,從而能夠更好地基于這些分析進(jìn)行優(yōu)化,才是更重要的。
第四,用對(duì)工具!上面列舉的各種A/B測(cè)試的場(chǎng)景和能力,都必須基于好的工具才能實(shí)現(xiàn)。比如,服務(wù)端的編程實(shí)驗(yàn),只有支持這種方式的工具才能實(shí)現(xiàn)。目前大量的工具,還停留在很久以前的客戶端實(shí)現(xiàn)上。
而目前國(guó)內(nèi)對(duì)A/B測(cè)試的應(yīng)用集中在那些互聯(lián)網(wǎng)“大廠”中,并形成了自己的A/B測(cè)試的專用產(chǎn)品或體系,比如字節(jié)的Libra、美團(tuán)的Gemini、滴滴的阿波羅等。特別要提一下的是字節(jié)的Libra,這是目前第一個(gè)把自己的A/B產(chǎn)品“拿給外面”用的產(chǎn)品。Libra平臺(tái)2016年誕生,在字節(jié)的各個(gè)產(chǎn)品、業(yè)務(wù)中經(jīng)過了不斷地使用、磨練和迭代,現(xiàn)在則通過字節(jié)旗下的to B品牌“火山引擎”對(duì)外開放,其能力包含上面我說的所有應(yīng)用場(chǎng)景。
現(xiàn)在,是大家重拾A/B測(cè)試價(jià)值的時(shí)候了!