AB테스트는 두 가지 버전의 웹페이지, 제품, 광고 등의 요소를 독립적인 집단을 나눠 비교하여 어느 것이 더 나은 성과를 내는지 평가하는 실험 방법입니다. 이는 데이터를 기반으로 의사결정을 내리는 데 유용하며, 특히 마케팅, 제품 개발, 사용자 경험 최적화 등에서 널리 사용됩니다.
웹 사이트를 예로 들어 보자면, 방문자를 무작위로 두 집단으로 나눈 뒤, 한 집단에게는 기존 사이트를 다른 집단에게는 새로운 사이트를 보여준 다음, 두 집단 중 어떤 집단이 더 높은 성과를 보이는지 측정하여, 새로운 사이트가 기존에 비해 좋은지를 정량적으로 평가할 수 있습니다.
이 때 측정할 수 있는 정량적인 지표는 (클릭률, 구매 전환율, 회원 가입율, 재방문율 등) 이 될 수 있습니다.
왜 AB 테스트를 하는가 ?
다양한 상황적 변수를 통제하고 인과관계를 추론하기 위해 사용됩니다.
1. 다양한 상황적 변수 통제
- 상황적 변수 : 웹사이트 디자인, 광고 캠페인, 제품 기능 등 여러 변수가 사용자 행동에 영향을 미칩니다.
- 변수 통제 : AB 테스트는 테스트할 변수 외에 다른 모든 조건을 동일하게 유지하여, 특정 변수의 효과를 정확히 평가할 수 있습니다.
2. 인과관계 추론
- 다른 상황적 변수를 통제하고 집단을 두 개로 나누어 비교하기 때문에, 그저 새로운 디자인의 전후 비교를 했을 시 매출 증가의 다른 인과관계를 통제가능하고 해당 요인에 대해서만 인과 관계 성립 가능성의 크기를 측정할 수 있다.
주의할 점
1. 임의적 할당 (Random Assignment)
A/B 테스트에서 두 집단을 비교할 때, 실험 그룹과 통제 그룹을 임의적으로 나누는 것이 중요합니다. 이는 각각의 그룹이 동일한 특성을 가지도록 보장하여, 특정 변수의 효과를 정확히 평가할 수 있게 합니다. 예를 들어, 성별, 시간대, 방문 시기 등 임의적이지 않은 방법으로 그룹을 나누면 결과가 왜곡될 수 있습니다.
- 잘못된 할당 예시:
- 남성은 A 그룹, 여성은 B 그룹
- 짝수 시간대 방문자는 A 그룹, 홀수 시간대 방문자는 B 그룹
- 첫 일주일 동안 방문한 사용자는 A 그룹, 그 다음 일주일 동안 방문한 사용자는 B 그룹
이러한 방식은 각 그룹의 특성이 다를 수 있어, 두 그룹 간의 차이가 무엇 때문에 발생하는지 명확히 할 수 없습니다. 임의적 할당은 이 문제를 방지하여, 결과의 신뢰성을 높여줍니다.
2. 임의적 추출 (Random Sampling)
A/B 테스트의 결과가 범용성을 가지려면, 실험에 참가한 집단이 모집단을 대표할 수 있어야 합니다. 이는 임의적 추출을 통해 가능합니다. 특정 집단에서 얻은 결과를 다른 집단에 일반화하려면, 두 집단이 유사한 특성을 가져야 합니다.
- 잘못된 일반화 예시:
- 초등학생을 대상으로 한 실험 결과를 중고등학생에게 적용
- 페이스북 사용자를 대상으로 한 실험 결과를 트위터 사용자에게 적용
이러한 잘못된 일반화는 기대와 다른 결과를 초래할 수 있습니다. 따라서, 모집단을 대표하는 샘플을 추출하는 것이 중요합니다.
+ 충분한 샘플링 크기
+ A/B/n 도 고려
A/B 테스트의 단점
1. 단기적 손해
A/B 테스트를 자주 또는 많이 실행하면 단기적으로 손해를 볼 수 있습니다. 예를 들어, 쇼핑몰에서 구매 전환율이 높은 상품 이미지를 테스트할 때, 새로운 이미지가 기존 이미지보다 매출이 낮다면, 테스트를 진행하는 동안 손해를 볼 수 있습니다. 이러한 경우, 테스트 기간을 단축하거나 손해를 최소화하는 방법을 고려해야 합니다.
2. 시간에 따른 결과의 변화
A/B 테스트의 결과는 시간의 흐름에 따라 변할 수 있습니다. 계절 변화나 소비자 취향의 변화 등으로 인해 테스트 결과가 달라질 수 있습니다. 예를 들어, 겨울에 실행한 테스트 결과가 여름에도 유효한지 보장할 수 없습니다. 이를 해결하기 위해서는 테스트를 지속적으로 반복하여 최신 데이터를 반영해야 하지만, 이는 비용 문제와 맞물려 실행이 어려울 수 있습니다.
통제실험은 시공간의 보편성에 대한 가정을 깔고 있다. 이 가정은 물리학이나 화학 수준에서는 대단히 확실히 보장되고, 생물학을 거쳐 사회과학 분야로 가면서 점점 약해지며, 비즈니스 맥락에서는 대단히 약해진다. 어제의 세상과 오늘의 세상이 다르고, 미국과 한국이 다르다. 결국 확실성을 유지하기 위해서는 실험을 지속적으로 반복해서 해야하는데 첫번째 단점(비용 문제)과 엮어서 생각해본다면 곤란한 얘기가 된다. by 데이터 리안
3. 지역최적점(local minimum)의 위험
A/B 테스트는 기존 상태에서 하나의 변수를 변경하여 점진적으로 최적의 상태를 찾아가는 방식입니다. 그러나, 이는 지역최적점에 머물게 할 위험이 있습니다. 전역 최적점을 찾기 위해서는 더 큰 변화를 시도하거나, 다른 접근 방식을 병행해야 합니다. Multi-armed Bandit 알고리즘은 이러한 문제를 해결하는 효과적인 방법 중 하나입니다.
결론
A/B 테스트는 데이터 기반 의사결정을 내리고 사용자 경험을 최적화하는 데 강력한 도구입니다. 그러나, 임의적 할당과 임의적 추출의 중요성을 인식하고, 단기적 손해와 시간에 따른 결과 변화, 지역최적점의 위험을 고려하여야 합니다. 이러한 주의사항과 단점을 잘 관리한다면, A/B 테스트를 통해 더 나은 비즈니스 결정을 내릴 수 있을 것입니다.
참고 링크
알라미의 A/B 테스팅 일지 #1
A/B 테스팅을 하면서 다른 팀들은 어떤 가설을 기반으로 어떠한 결과를 냈는지 궁금한 적이 많았는데, 이번 기회에 알라미에서 진행했던 A/B 테스팅 중 몇몇 경험들을 공유해보려고 한다.
medium.com
거래 후기 실험을 통해 따뜻한 거래 경험 만들기
거래 후기 실험을 통해 당근마켓이 어떻게 따뜻한 서비스를 만들고 성장시켜 나가는지 소개해 드릴게요!
medium.com
https://datarian.io/blog/a-b-testing
A/B 테스트란
A/B 테스트란 무엇인지, 왜 하는지, 어떤 단점이 있는지 개괄해서 읽기 좋은 글이에요. A/B 테스트 입문자에게 이 글을 추천합니다.
datarian.io
'About Statistics (통계)' 카테고리의 다른 글
회귀분석, R squared (설명력??) 의 의미 (1) | 2024.08.08 |
---|---|
통계 분포 (0) | 2024.08.07 |
표본오차와 신뢰구간 (0) | 2024.08.07 |
상관관계와 인과관계 | Correlation does not imply causation (0) | 2024.08.01 |
기술통계와 추론통계 (0) | 2024.08.01 |