Skip to content

Latest commit

 

History

History
119 lines (79 loc) · 8.54 KB

79.相关和回归.md

File metadata and controls

119 lines (79 loc) · 8.54 KB

相關和迴歸

我們知道,可以透過對指標的維度拆來解尋找指標變化的原因。當我們找到問題的原因時,自然會進一步思考一個問題:指標變化的原因這麼多,其中的關鍵因素又是哪個呢?例如,我們在工作場景中時不時會討論這些問題:

  1. 電商類產品想知道哪個品類銷售對整體銷售貢獻更大;
  2. 渠道運營想知道哪個渠道的使用者對整體活躍作用更大;
  3. 負責留存的想知道哪個客群對整體的留存關係更大;
  4. 產品想知道到底哪些維度(城市、年齡、接入裝置等)會影響整體活躍。

還有很多類似的場景,在這種情況下我們不僅要要找到資料變化的原因,還需要明確出不同原因的重要性。因為實際工作中可用資源有限,只能集中優勢資源解決核心問題。

相關分析基本概念

相關性分析,指對兩個或多個指標進行分析,評估它們兩兩之間聯絡或相互影響的程度。相關性分析不僅可以分析出多個指標間是否存在相關關係,還能給出相關程度的量化值。在進行相關性分析時,我們會使用“相關係數”定量給出幾個指標間聯絡和影響的程度,通常用 $ \rho $ 來表示,計算公式為:

$$ \rho = \frac {cov(X, Y)} {\sqrt{var(X) \cdot var(Y)}} $$ 需要注意的是,$ \rho $ 只能用來度量線性關係,它的取值在 $ [-1, 1] $ 之間。資料中的離群值會對 $ \rho $ 產生影響,在計算時必須先剔除,實際使用相關關係時,還需要關注相關關係的穩定性

我們用 $ \rho $ 值判斷指標的相關性時遵循以下兩個步驟。

  1. 判斷指標間是正相關、負相關,還是不相關。
    • 當 $ \rho \gt 0 $,認為指標間是正相關,也就是兩者的趨勢一致。如果指標 A 與指標 B 的 $ \rho \gt 0 $,那麼指標 A 上漲,指標 B 也會上漲;反之亦然。
    • 當 $ \rho \lt 0 $,認為指標間是負相關,也就是兩者的趨勢相反。如果指標 A 與指標 B 的 $ \rho \lt 0 $,那麼指標 A 上漲,指標 B 會下降;反之亦然。
    • 當 $ \rho = 0 $,認為指標間是不相關的,但並不代表兩個指標是統計獨立的。
  2. 判斷指標間的相關程度。
    • 當 $ \rho $ 的值在 $ [0.5,1] $ 之間,認為指標間是強相關,指標間的業務聯絡非常緊密。
    • 當 $ \rho $ 的值在 $ [0.1,0.5) $ 之間,認為指標間是弱相關,指標間的業務聯絡不太緊密。
    • 當 $ \rho $ 的值在 $ [0,0.1) $ 之間,認為指標間是無相關,指標間的業務聯絡無任何聯絡,也就是說當我們去運營指標 A 時,指標 B 不會產生相應的變化。

相關分析應用場景

事實上,相關性分析的應用場景非常多,基本上當問到“這兩個東西有什麼關係”、“哪個指標的作用(貢獻或價值)更大”、“我們應該重點解決哪個問題”這類問題時,都可以用相關性分析給出比較準確的回答,非常便於產品運營找到解決問題的核心抓手。

在使用相關分析時,應注意以下幾個方面:

  1. 業務意義:當我們想知道A指標的情況時,可以監控B指標。
  2. 注意事項:千萬不要將相關關係判斷為因果關係,相關關係是伴隨關係而不是因果關係。
  3. 強相關關係才是有業務價值的,建議尋找相關係數在 0.6 以上甚至 0.8 以上的指標。
  4. 相關關係的本質是 Y 的變化有多少能被 X 解釋,跟 X 和 Y 之間的斜率大小無關。

Excel計算相關係數

  1. 方法一:使用 CORREL 函式。
  2. 方法二:使用“資料分析”模組的“相關係數”功能。

相關分析案例

分析哪個客群的留存對整體留存貢獻更大

留存的運營中我們最常看的就是新客的留存和活躍客群的留存,用來評估哪個客群的留存與整體的留存聯絡更緊密,以便制定後續運營的策略。

利用Excel進行相關分析的結果如下所示。

可以看出,活躍訪客的留存率與整體留存率的相關是強相關;而新增訪客的留存率與整體留存率的相關是弱相關,所以如果要提升整體留存率,我們的產品運營資源應當更多地投放給活躍使用者,以提升整體的留存率;而新增訪客,雖然不會拿到很多運營資源,但是我們也要去深入分析為什麼新增訪客的留存的貢獻比較小,適時做一些提升這部分客群與整體留存的策略。

案例2:找出對購買轉化率貢獻最高的渠道

基本上電商運營會同時部署多個渠道,包括線上電商平臺以及線下的門店。由於現有某產品從各個渠道獲客的使用者在產品上的購買轉化率,需要評估哪些渠道的使用者對整體購買轉化率貢獻最大,後續將重點營銷此渠道。

案例3:分析哪些因素對 DAU 的影響更大

我們分析 DAU 時常會將它拆解為各種維度來分析,這裡我們分析與 DAU 聯絡最緊密的維度到底是哪些,以幫助我們制定針對性的運營策略,如下圖所示。

對於這樣的報表,我們需要找出到底是哪幾個城市、哪個作業系統,以及哪個年齡段的使用者對於 DAU 的影響最大。如果能找出來這個關係,那麼後續要提升 DAU,就有非常清晰的方向。

線性迴歸

如果只有一個自變數 X,而且因變數 Y 和自變數 X 之間的數量變化關係呈現近似的線性關係,就可以建立一元線性迴歸方程,透過自變數 X 的值來預測因變數 Y 的值,這就是所謂的一元線性迴歸預測,迴歸方程如下所示: $$ Y = aX + b $$ 我們可以通過歷史資料(已知的 $ X $ 和 $ Y $ ),確定引數 $ a $ 和 $ b $ 的值,還原出迴歸方程,從而實現預測。很顯然,$ a $和 $ b $ 的取值可以有很多種選擇,那麼什麼才是最好的 $ a $ 和 $ b$ 呢?如果把真實值記為 $ y $,把預測值記為 $ \hat{y} $,那麼讓 $ SSR $ 值最小的 $ a $ 和 $ b $ 就是最好的 $ a $ 和 $ b $ ,稱之為最小二乘解,其中$ SSR $ 值計算公式如下所示: $$ SSR = \sum_{i=1}^{n}(y_i - \hat{y_i})^2 $$ 損失函式是凹函式,找到使函式最小的ab的值,可以透過向凹函式的拐點進行逼近的方式來找到更好的ab的值,具體的公式如下所示:

$$ a^\prime = a + (-1) \times \frac {\partial loss(a, b)} {\partial a} \times \Delta \ b^\prime = b + (-1) \times \frac {\partial loss(a, b)} {\partial b} \times \Delta $$ 對於上面的求 $ SSR $ 的函式來說,可以用下面的公式計算偏導數: $$ f(a, b) = \frac {1} {N} \sum_{i=1}^{N}(y_i - (ax_i + b))^2 \ \frac {\partial {f(a, b)}} {\partial {a}} = \frac {2} {N} \sum_{i=1}^{N}(-x_iy_i + x_i^2a + x_ib) \ \frac {\partial {f(a, b)}} {\partial {b}} = \frac {2} {N} \sum_{i=1}^{N}(-y_i + x_ia + b) $$ 上面的方法稱為梯度下降法

在Excel中,可以使用“資料分析”模組的“”來實現線性迴歸。

對於迴歸分析,最為重要的是評價迴歸的結果是否理想,這關係到能否透過迴歸方程去預測將來,我們先看看決定係數(Multiple R-Squared,通常稱之為$ R^2 $)。在統計學習中,決定係數用於度量因變數的變化中可由自變數解釋部分所佔的比例,也就是你的迴歸模型的解釋力是否良好,$ R^2 $ 的值越接近1越好。 $$ SS_{tot} = \sum_{i}(y_{i} - \bar {y})^2 \ SS_{res} = \sum_{i}(y_{i} - \hat {y_i})^2 \ R^2 = 1 - \frac {SS_{res}} {SS_{tot}} $$

接下來我們還要對迴歸方程的顯著性進行檢驗,主要包括 t 檢驗(迴歸係數的檢驗)和F檢驗(迴歸方程的檢驗)。對於F檢驗(F-statistic)的結果,主要關注其 p-value ,如果 p-value 小於0.05,那麼說明擬合效果是不錯的。