상세 컨텐츠

본문 제목

A/B 테스트

그로스 해킹

by 관재탑 2022. 11. 19. 00:25

본문

표준 오차 (Standard Error)

모집단에서 표본을 뽑아낸 뒤에 표본 평균을 측정

문제는 모집단에서 표본을 뽑을 때마다 표본 평균이 조금씩 달라짐

표본 평균의 변동성은 표본 분산과 표본 집단의 크기로 알 수 있는데 이를 표준 오차라고 함

표본 평균의 변동성 = 표준 오차 (standard error)

표본 크기가 커지면 표준 오차(표본 평균의 변동성)는 줄어들음

표본 표준 편차가 커지면 표준 오차(표본 평균의 변동성)은 커짐

 

해당 표준 오차는 One sample t-test에서의 표준오차이다.

 

신뢰 구간 (Confidence Interval)

표본 평균의 확률 분포는 표본 크기가 충분히 크면 정규 분포를 따름

표본 평균과 표준 오차를 통해 정규 분포를 이용해 표본 평균의 범위를 알 수 있음

1.96은 표준 정규 분포에서 97.5 백분위 수에 해당함

여러 개의 다른 표본에서 신뢰 구간을 같은 방법으로 구할 경우 95%의 구간들이 모평균을 포함한다.

 

 

 

가설 검정

Variation A와 B의 전환율을 각각 Pa, Pb라고 가정한다. 귀무 가설(null hypothesis)과 대립 가설(alternative hypothesis)은 아래와 같다. 단측 검정을 가정한다.  가설 검정은 귀무 가설을 기본 전제로 삼는다

 

 

1종 오류와 2종 오류

1종 오류는 귀무가설이 사실인데 기각할 오류, 2종 오류는 귀무가설이 거짓인데 기각하지 않을 오류이다.

  • 귀무가설 : 효과가 없다
  • 대립가설 : 효과가 있다.
  • 1종 오류 : 효과가 없는데 있다고 할 오류
  • 2종 오류 : 효과가 있는데 없다고 할 오류

 

 

P-value

A/B테스트를 진행한다고 가정한다. 두 실험군의 전환율 차이가 있는지 없는지 가설 검정을 진행한다. 차이가 없는데 있다고 할 오류 수준(1종 오류, 옳은 귀무 가설을 기각할 오류, 효과가 없는데 있다고 할 오류)은 0.05로 정했다.

귀무 가설에 해당하는 분포다.

가설 검정에서는 귀무 가설이 맞다고 가정한다. 귀무 가설은 집단 간의 전환율 차이가 0이라고 가정하므로 확률분포의 중심은 0이다.  P-value는 귀무 가설이 맞다는 가정하에서 계산한 검정통계량보다 크거나 같은 값이 나올 확률을 의미한다.

귀무 가설이 맞다는 가정하에서 실험을 통해 얻은 검정통계량보다 크거나 같은 값의 데이터가 나올 확률이 "두 집단 간의 전환율 차이가 없는데 있다고 할 오류 수준(= 0.05)" 보다 낮다. 1종 오류의 허용 한계보다 이러한 데이터가 관찰될 확률이 낮다. 즉, P-value가 1종 오류(=0.05)보다 작다는 뜻은 귀무 가설이 맞다는 가정(차이가 없다는 가정)하에서는 정말 나오기 힘든 데이터가 나온 것이다. 

 

 

효과 크기를 무시한 A/B 테스트

표본 크기가 커지면 검정통계량이 커지게 되어 P-value가 작아질 가능성이 있다. 그래서 표본의 크기가 커지면 대부분 통계적으로 유의한 결과(P-value <= 0.05)가 나온다. 효과 크기가 작다면 아무리 통계적으로 유의한 차이가 있더라도 큰 의미가 없다.  실험의 크기를 증가시켜 표본크기를 증가시키면 아주 작은 효과 크기에 대해서도 통계적 유의성을 확보할 수 있다. 

두 실험군의 차이는 비슷해보이는데 통계적으로 유의한 차이를 얻으면 좋을까? 효과크기가 작다면 아무리 통계적으로 유의미한 차이가 있떠라도 현실에서 큰 의미가 없다. 예를 들어 어느 이커머스 회사에서 웹페이지 개선 전후로 A/B테스트를 진행했는데 두 집단간의 전환률 차이가 0.17%가 나왔다고 해보자. 현실에서 이 정도의 전환율 차이가 큰 의미가 있을까?

해당 실험을 하루 평균 구매 고객이 1000명인 홈페이지에서 했다고 가정하자. 0.17%의 전환율 상승이 가져오는 구매 고객 증가는 하루 평균 1.7명이다. 만약 구매 고객당 평균 매출액이 1만원이라면 0.17%의 전환율 상승은 평균적으로 하루에 17,000원 매출 상승을 의미한다. 같은 전환율 상승을 하루 평균 구매 고객이 100만 명인 회사에서 거둔다면 이야기는 달라진다. 0.17%의 전환율 상승은 하루 평균 1,700명의 추가 구매 고객을 의미하며, 1만원씩 구매를 한다면 하루에 1,700만원의 추가 매출이 생긴다.

중요한 것은 해당 효과가 현실에서 어느 정도의 가치를 의미하는지 아는 것이다. 0.1%의 전환율 상승이 중요하다면 해당 효과 크기에서의 유의성 확보는 매우 중요하다. 반대로 최소한 10%의 전환율 상승이 있어야 실험의 비용을 감당할 수 있는 상황이라면 0.17%의 효과에 대해서 유의성을 확보하기 위한 노력은 불필요하다.

위의 예시에서 본 것처럼, 실험 크기를 증가시키면 아주 작은 효과 크기에 대해서도 유의성을 확보할 수 있다. 즉, 없는데 있다고 판단할 오류를 배제할 수 있다. 하지만 아주 작은 효과 밖에 없다면, 과연 그 효과가 ‘없는데 있다고 판단할 오류’를 범하지 않기 위해 애쓸 필요가 있을까? 그 정도 차이는 있어도 소용 없으니 차라리 다른 실험을 준비하는 편이 낫다.

 

 

검정력

1종 오류가 ‘없는데 있다고 판단할 오류’라면, 2종 오류는 ‘있는데 없다고 판단할 오류’다. 1종 오류를 유의 수준이라 말하고 이 오류의 한계를 보통 0.05라고 정한다. 2종 오류는 바로 쓰지 않고, 값을 사용한다. 이는 ‘있는데 없다고 판단할 오류’의 여사건 개념이며, ‘효과가 있는데 있다고 판단할 능력’을 의미하기 때문에 검정력(power)이라고 부른다. 일반적으로 검정력은 0.8로 설정한다. 검정력이 0.8이라는 이야기는 탐지하려는 효과가 실제로 있을 때 효과가 있다고 판단할 가능성이 0.8이라는 의미다. 효과가 없는데 없다고 판단할 능력이 높은 것도 중요하지만, 실제로 효과가 있을 때 있다고 판단할 수 있는 능력도 중요하다. p-value는 효과가 없다는 가정 하에서 평가한 숫자다. 따라서 p-value와 별도로 검정력에 신경쓸 필요가 있다. 최악의 경우에는 원하는 효과 크기를 탐지할 가능성이 절반 이하인 실험 결과를 신뢰하고 중요한 의사 결정을 하게 될 수도 있다.

 

 

 

참고자료

'그로스 해킹' 카테고리의 다른 글

Minimum Detectable Effect(최소 검출 가능 효과)  (0) 2022.11.19
t검정 종류  (0) 2022.11.19
MRR  (0) 2022.11.12
CAC와 CPA의 차이점  (0) 2022.11.08
공헌이익  (0) 2022.11.07

관련글 더보기

댓글 영역