国产高潮人妖99视频_国产精品九九九国产盗摄蜜臀_国产一区二区天天看片_国产精品无码AV无码_不卡的av帝国在线一区二区

您當(dāng)前位置: 唯學(xué)網(wǎng) » 用戶增長師 » 用戶增長師教育新聞 »

你需要多長時間來運(yùn)行一個實(shí)驗(yàn)?

你需要多長時間來運(yùn)行一個實(shí)驗(yàn)?

唯學(xué)網(wǎng) • 教育培訓(xùn)

2022-8-22 17:00

唯學(xué)網(wǎng) • 中國教育電子商務(wù)平臺

加入收藏

在線對照實(shí)驗(yàn)中,一個非常常見的困惑是你需要多少時間來對實(shí)驗(yàn)結(jié)果做出結(jié)論。

使用p值作為實(shí)驗(yàn)停止的標(biāo)準(zhǔn),這是個簡單的方法,但它的問題在于,給出p值的假設(shè)是你在設(shè)計(jì)實(shí)驗(yàn)時就已經(jīng)考慮好了樣本和效應(yīng)量的大小。但如果你持續(xù)監(jiān)測一個測試項(xiàng)目的進(jìn)程和p值的變化,那么你就很有可能能夠看到某種有顯著性的“影響”——即使并不存在顯著效應(yīng)的時候。另一個常見的錯誤是,由于沒有及時觀察到有顯著性的結(jié)果,而過早地停止了實(shí)驗(yàn)。

下面是Airbnb所進(jìn)行的一個實(shí)際實(shí)驗(yàn)的例子。我們測試了將搜索頁面上的價(jià)格過濾器(將金額范圍從300改為1000美元),顯示效果如下:

在下面的圖5中,展示了本項(xiàng)實(shí)驗(yàn)的進(jìn)程。藍(lán)色的曲線顯示了改版效果(新版/舊版-1),紅色的曲線顯示了隨時間變化的p值。正如你所看到的那樣,p值曲線在7天后達(dá)到了常用的顯著標(biāo)準(zhǔn)0.05,這時新版的效應(yīng)量為4%。如果我們就此打住,那么就會得出結(jié)論:改版對預(yù)訂的可能性有強(qiáng)烈而顯著的影響。但當(dāng)我們持續(xù)進(jìn)行實(shí)驗(yàn)后,我們發(fā)現(xiàn)實(shí)際上實(shí)驗(yàn)結(jié)果最終的表現(xiàn)是中性的。最終的效應(yīng)量幾乎為0,此時的p值表明,無論剩下的效應(yīng)量是多大,都應(yīng)該被視為統(tǒng)計(jì)噪音。

為什么我們知道在p值達(dá)到0.05時不要停止實(shí)驗(yàn)?事實(shí)證明,這種提前達(dá)到所謂的"顯著性",然后又收斂歸于中性結(jié)果的情形,在我們的系統(tǒng)中其實(shí)是很常見的。

造成這種情況的原因有很多。比如,用戶往往需要很長的時間來預(yù)訂,所以測試早期快速完成的預(yù)約會對整個測試結(jié)果有著明顯的影響。另外,在線上實(shí)驗(yàn)環(huán)境中,即使是小樣本量,放在經(jīng)典統(tǒng)計(jì)學(xué)中規(guī)模也可以稱得上是相當(dāng)巨大的,因而傳統(tǒng)的p值統(tǒng)計(jì)方法可能并不完全適用這種超級大樣本量的情形。由于統(tǒng)計(jì)檢驗(yàn)是樣本和效應(yīng)量的函數(shù),如果通過自然變異的早期效應(yīng)量很大,那么早期的p值很可能低于0.05。但最重要的原因是,每次計(jì)算p值時,你都實(shí)際上仍在進(jìn)行統(tǒng)計(jì)測試,每多測算p值一次,就會有較大的概率獲得一個低于0.05的p值。

順便提一下,熟悉Airbnb的人可能會注意到,在寫這篇文章的時候,我們事實(shí)上已經(jīng)上線了新版的價(jià)格過濾器。盡管如前文所說,A/B測試的結(jié)果是中性的,但我們發(fā)現(xiàn),確實(shí)有一部分用戶會希望有這樣的篩選器能夠更快找到高端房源,因此我們決定在不損害已有體驗(yàn)的情況下,仍然為有這樣需求的用戶提供此種更好的體驗(yàn)。

那么實(shí)驗(yàn)應(yīng)該運(yùn)行多長時間?為了防止統(tǒng)計(jì)學(xué)中的第二類錯誤(取偽),最好的做法是在實(shí)驗(yàn)之前就確定改版所要達(dá)到的最低效果,并根據(jù)樣本量(每日新增訪問)和期望的顯著值,來計(jì)算出實(shí)驗(yàn)需要運(yùn)行的時間。evanmiller.org網(wǎng)站上提供了一個樣本和實(shí)驗(yàn)時長計(jì)算器,可以模擬和計(jì)算一下。提前設(shè)定時長還可以最大限度地減少在沒有效果的情況下卻錯誤地“發(fā)現(xiàn)”效果的誤判。

但這里還有一個問題是,我們通常很難確定新版應(yīng)該要有多大的效果或者會有怎樣的效果。由于A/B測試是先測試、再應(yīng)用,因而這往往會導(dǎo)致,某次改版很可能是非常成功的,但由于測試時間過長,就影響了新版的及時上線,這會導(dǎo)致潛在利益的巨大損失。或者,A/B測試也可能會導(dǎo)致產(chǎn)品在使用方面的bug,因此發(fā)現(xiàn)這樣的問題后應(yīng)當(dāng)立即停止測試,否則就會對用戶體驗(yàn)造成更多的傷害。

在實(shí)驗(yàn)時,有時預(yù)先設(shè)定的時間結(jié)束之前,便會獲得具有顯著性的結(jié)果。在前文的價(jià)格過濾器例子中,你可以看到,當(dāng)?shù)谝淮芜_(dá)到預(yù)設(shè)的顯著性水平時,效應(yīng)量曲線(藍(lán)色曲線)的走勢看起來還沒有完全收斂。有時候直覺思維會幫助我們做出判斷,某個顯著性結(jié)果是否達(dá)到了穩(wěn)態(tài)呢?因此我們要在實(shí)驗(yàn)進(jìn)程中不斷檢查,而不是機(jī)械地依靠單一的p值。

如果想在預(yù)設(shè)時間之前停止實(shí)驗(yàn),我們可以利用這一洞察來更正式地確定何時停止實(shí)驗(yàn)。如果你確實(shí)希望對正在測試的更改是否表現(xiàn)得特別好進(jìn)行自動判斷,這將非常有用,尤其是當(dāng)你同時運(yùn)行多個實(shí)驗(yàn)而無法系統(tǒng)地手動檢查實(shí)驗(yàn)的進(jìn)程時,這也非常有幫助。這種所謂的直覺思維通常要以懷疑的眼光來看待早期的測試結(jié)果。這就意味著,在測試的早期,可以采用較低的p值來判斷測試結(jié)果的顯著性,當(dāng)隨著實(shí)驗(yàn)的進(jìn)行,積累了更多的測試數(shù)據(jù),便可以隨之接受更高的p值了,因?yàn)檫@時候犯二類錯誤的概率要低得多。

Airbnb通過模擬測試獲得動態(tài)的p值曲線,來判斷一個早期的顯著性結(jié)果是否真的值得信任,從而解決了如何確定停止實(shí)驗(yàn)的p值取值問題。我們編寫了一個程序,通過引入不同的變量,來模擬不同的效應(yīng)量和置信度結(jié)果,并以此來判斷改版對于轉(zhuǎn)化效果是否真的存在顯著影響。在圖6中,我們展示了某個測試模擬中得到的決策邊界:

這里要提請注意的是,這條曲線是基于某些特定變量而生成的曲線,未必適用其它的實(shí)驗(yàn)場景和實(shí)際情況。

來源:SMEI官方

以上是關(guān)于用戶增長師的相關(guān)信息,以供大家查看了解。想要了解更多用戶增長師信息,第一時間了解用戶增長師相關(guān)資訊,敬請關(guān)注唯學(xué)網(wǎng)用戶增長師欄目,如有任何疑問也可在線留言,小編會為您在第一時間解答!

用戶尾圖.png

0% (10)
0% (0)
已有條評論