無知

갈 길이 먼 공부 일기

기술 공부/일반 트렌드

A/B 테스팅으로 개선 결과 검증

moozii 2022. 4. 4. 21:49
이 내용은 Data-Driven UX (데이터 드리븐 UX) 도서를 공부하며 정리한 챕터입니다. 자세한 사항은 이 책을 만든 뷰저블 사이트를 참고해주세요!
https://www.beusable.net/ko/book 

 

 

A/B 테스팅 이해하기

 

A/B 테스팅이란?

서비스 실제 사용자가 될 수 있는 두 집단에 각각 A, B를 제공하고, 이에 대한 결과 차이로 보다 나은 안을 선택하는 것.
사용자의 의견을 올바르게 이해했는지 정량적으로 이론을 검증하기 위한 수단으로 활용된다.

 

In the 1920s statistician and biologist Ronald Fisher discovered the most important principles behind A/B testing and randomized controlled experiments in general. The principles persisted and in the early 1950s scientists started running clinical trials in medicine. In the 1960s and 1970s the concept was adapted by marketers to evaluate direct response campaigns (e.g., would a postcard or a letter to target customers result in more sales?).

A/B testing, in its current form, came into existence in the 1990s. Fung says that throughout the past century the math behind the tests hasn’t changed. “It’s the same core concepts, but now you’re doing it online, in a real-time environment, and on a different scale in terms of number of participants and number of experiments.”

Source: HBR, Harvard Business Review

 

 

A/B 테스팅의 조건

  1. 검증 목적이므로 실제 결과를 확인해야 한다
  2. 서비스 전체 이익에 큰 영향을 끼쳐서는 안된다
    1. 2번 조건을 위해 기존 사용자 전수가 아닌 표본집단을 대상으로 수행하기를 권한다.
  3. 비교의 동시성을 보장해야 한다
    1. 콘텐츠 이외의 변인을 통제하여 외부 영향을 최소화해야 한다.
    2. 통제해야 할 변인으로는 시간 외에도 페이지뷰, UV 규모, 유입 경로, 기기, 운영체제, 브라우저 등이 있다.

 

 

 

 

A/B 테스팅 진행하기

 

  1. 목표 설정하기
    1. 정량적 목표를 설정할 것 (전환율, 스크롤 도달률 등)
    2. 목표의 달성은 콘텐츠에 기인할 것 (PV 등 외부 요인에 영향을 크게 받는 목표 설정은 피할 것)
  2. 현황 분석 및 문제 원인 파악하기
    1. 목표 설정과 관련 있는 지표 현황 파악하기
      1. 다른 링크의 전환 및 클릭 현황을 파악할 수 있다
        (사용자들은 구매 전환 외에 어떤 것을 기대하는지를 확인하는 작업)
      2. 유입 경로별 현황을 확인해 시너지 창출이 가능한 콘텐츠를 파악할 수 있다
        (어떤 유입 경로 페이지에서 링크를 더욱 강조하여 전환율을 높이는 것이 효율적인지 파악)
      3. 유입 경로 중 특정 페이지 도달 후 되돌아가 전환된 바가 있다면 어떤 정보 전달이 부족했는지 확인할 수 있다
      4. 사용성 테스트, 설문조사, 인터뷰를 통해 의견을 직접 청취할 수 있다
        ”넷플릭스는 A/B testing에서 설문조사를 통해 얻은 내용을 반영했을 때 오히려 지표가 낮아졌다고 한다. 그 이유를 면밀히 살펴본 결과 다른 근본적인 요구 사항이 숨겨져 있었다는 사실을 확인했다.”
  3. 가설 수립 및 B안 제작하기
    1. 가설 수립
      1. 현황 파악 외 디자인 법칙 등의 연구 결과 및 이론을 활용한 가설 수립도 가능하다
      2. 이론을 적용하기 전에는 적용 가능한 환경인지 사전 검토를 진행한다
    2. B안 제작
      1. 두가지 안의 차이점이 한가지만 존재하여야 한다. 2가지 이상 존재하여 해석의 어려움이 발생해서는 안된다. 차이점이 곧 결과의 원인으로 해석되므로 가설의 개수만큼 B안을 만들어야 한다.
  4. A/B 테스팅 진행하기
    1. 툴을 사용해 각 안에 대한 트래픽을 균등하게 분산한다
    2. 리스크를 최소화하되 테스트 신뢰성이 보장되는 적정 크기의 표본 집단(트래픽 비율)을 선택한다
      1. 라플라스의 중심극한 정리에 따라 n=30 이상일 때 표본의 크기가 충분히 크다고 해석한다
      2. + 팁) 분산 방식에는 크게 3가지 방식이 있다. https://velog.io/@woga1999/AB-Test
        1. 노출 분산 방식 : 페이지 렌더링 시 2가지를 다르게 노출한다. 통계적 유의성이 가장 높으나 사용자 혼란을 초래할 수 있어 알고리즘 테스트에 적합하다.
        2. 사용자 분산 방식 : 사용자를 그룹으로 분리해 고정적으로 다른 것을 노출시킨다. 사용자 개인에게는 고정된 UI/UX가 나오므로 테스트에 적합하지만, 특정 헤비유저에 따른 결과값 왜곡 가능성이 높다. UI/UX 테스트에 적합하다.
        3. 시간 분할 방식 : 시간대를 분할해 노출하는 방식으로 설계상 다른 방식이 어려울 때 사용하는 대안이다.
  5. A/B 테스팅 기간 설정하기
    1. 리스크를 최소화하되 유의미하게 긴 기간을 설정해야 한다
    2. 시간/요일/공휴일/홍보기간 등을 고려해 시간적 변수가 테스트 기간에 치중되지 않도록 한다
  6. A/A 테스팅 실시하기
    1. 동일한 A 페이지를 분배하여 두 집단 값을 비교하여 차이를 확인한다.
    2. 테스트 결과에서 분배로 인해 고려해야 하는 오차 범위를 측정하는 데에 사용한다.
  7. 결과 비교 및 확인하기
    1. 테스트의 일관성 및 정교함의 향상을 위한 유의성 검증을 진행할 것을 권고한다.
      T-검정을 통해 두 집단 간의 평균을 비교하는 통계분석을 자주 활용한다.
    2. https://www.nngroup.com/articles/putting-ab-testing-in-its-place/
 

Putting A/B Testing in Its Place

Measuring the live impact of design changes on key business metrics is valuable, but often creates a focus on short-term improvements. This near-term view neglects bigger issues that only qualitative studies can find.

www.nngroup.com

 

 

HBR에서 말하는 A/B 테스팅 속 흔한 실수

 

+) 테스트의 기간이 종료되지 않은 가운데 초기 데이터에 너무 빠르게 반응해서는 안된다.

매니저들은 의사결정을 빠르게 내리고 싶어하기 때문에, 심지어 최근에는 “실시간 최적화”라는 형태의 A/B 테스팅 툴이 등장하고 있다. 문제는, 임의성으로 인해서, 기간을 충분하게 보장하지 않으면, 결과가 다르게 나올 개연성이 존재한다는 것이다.

 

+) 확인할 지표를 지나치게 많이 설정해서는 안된다.

지나치게 많은 지표를 살펴보다 보면, 의사적 상관성, 허위 관계의 문제에 빠지기 쉽다. 적은 지표를 확인해야 실험의 결과가 명확해지고, 지표가 늘어날수록 임의 변동성이 더 커지기 때문에, 주목하는 변화가 무의미할 가능성이 높아진다. (의사적 상관성은, 쉬운 말로 인과관계가 없는 두 변수 사이의 우연한 통계적 상관성 발견이다) https://hbr.org/2015/06/beware-spurious-correlations

 

Beware Spurious Correlations

Analytical sleight of hand can mislead managers.

hbr.org

 

+) 충분한 재검을 거치지 않는다.
통계적으로 유의미한 결과를 갖기 위해서는 거짓 양성 결과와 같은 케이스에 유의해야 한다. 주기적으로 실험을 반복하면서 실험이 틀렸을 가능성을 충분히 제하는 것이 중요하다.

A/B testing is a way to compare two versions of something to figure out which performs better. (중략) The test works by showing two sets of users (assigned at random when they visit the site) different versions of a product or site and then determining which influenced your success metric the most. While it’s an often-used method, there are several mistakes that managers make when doing A/B testing: reacting to early data without letting the test run its full course; looking at too many metrics instead of focusing on the ones they most care about; and not doing enough retesting to be sure they didn’t get false positive results.

https://hbr.org/2017/06/a-refresher-on-ab-testing

 

A Refresher on A/B Testing

Spoiler: Many people are doing it wrong.

hbr.org

 

 

쿠팡 : AB 테스팅 솔루션이 실패했다면

테스트가 종료되면 미리 설정해둔 주요 지표에 따라 테스트의 성공 여부를 판단한다. 이때 예측과는 달리 중요한 문제임에도 개선을 해내지 못했자면, 기존에 문제를 정의한 것부터, 가설, 개선 방안까지 전체적으로 허점이 없었는지 면밀한 분석을 실행해야 한다.

 

  • 테스트를 종료하거나,
  • 다시 개선하여 반복하거나

 

둘 중 하나를 택하는 판단을 하려면 분석이 필수적이다.

실패한 테스트에서 인사이트를 얻는 것도 중요하다. 몇번의 반복을 통해 성공적인 테스팅이 가능하다. 쿠팡 패션 팀에서도 사이즈 탐색 문제에서 같은 과정을 거친 바 있다.

 

  • 고객 행동 분석 :
    • 리서치 팀과 함께 행동 패턴을 파악하기 위해 “쿠팡에서 패션 상품을 구매한 이력이 있는 고객”을 대상으로 설문조사, 인터뷰, 사용성 테스트를 진행했다. 이때 파악한 고객의 상품 정보 탐색 시 고려 요소는 사이즈, 컬러, 스타일, 소재, 품질 순이었다. 가장 우선순위가 높은 사이즈를 주로 상품 상세 속의 사이즈 정보, 모델 핏, 고객 후기로 확인한다는 사실을 알아냈다.
    • “구매를 시도했다가 포기한 고객”으로 대상을 바꿔보니 “맞는 사이즈를 확인할 수 있는 정보가 부족”하다는 문제점이 또다시 응답을 통해 확인됐다.
  •  문제
    • 사이즈 표의 위치가 모두 다른 점
    • 사이즈 표의 형태와 기준이 모두 다른 점
    • 상품 등록 시 사이즈 표가 필수 요건이 아닌 점
  • 개선사항 : 고객의 눈에 띄는 영역에 사이즈 표를 쉽게 노출시키면 구매 결정이 더 쉬워진다
    • 사이즈 후기 영역을 추가하고,
    • 상단 영역에 사이즈 안내 버튼을 추가했다.
  • 결과 : 버튼 클릭률이 현저히 낮았음

 

 

  • 실패 후 검토 : 사용성 테스트, UT를 진행
    • 테스트 결과 : 상품 페이지 상단은 가격 영역으로 인식해 못보고 지나침
  • 교차검증용 A/B 테스트 결과
    • 사이즈 안내 버튼을 1회 이상 클릭한 고객의 구매 전환율이, 그렇지 않은 고객 구매 전환율보다 2배 이상 높다
  • 신규 개선 사항 : 노출 시점을 변경해 사이즈 옵션 선택 영역 옆에 사이즈 안내 버튼을 배치
  • 신규 결과 : 클릭률 증가, 구매 전환율 상승, 총 거래액 증가

https://brunch.co.kr/@coupangdesign/73

 

쿠팡 UX Club 3. 테스트 결과가 예상과 다를 때

디자이너의 고민, 그리고 경험에서 찾은 솔루션 | 쿠팡 UX Club은 팀원들이 함께 고민을 나누고 해결하는 자리를 통해 관점을 넓히고, 긍정적인 자극으로 다함께 성장하려는 취지에서 시작된 팀

brunch.co.kr

 

 

 

 

A/B 테스팅 사례

 

오바마 선거 캠페인

 

A/B Testing 필요성과 사례 https://www.beusable.net/blog/?p=1775

 

As Director of Analytics for the Obama 2008 campaign, my job was to use data to help the campaign make better decisions. We started with just one simple experiment back in December of 2007. This experiment taught us that every visitor to our website was an opportunity and that taking advantage of that opportunity through website optimization and A/B testing could help us raise tens of millions of dollars. We tried four buttons and six different media (three images and three videos). We used Google Website Optimizer (now Google Optimize) and ran this as a full-factorial multivariate test which is just a fancy way of saying we tested all the combinations of buttons and media against each other at the same time. Since we had four buttons and six different media that meant we had 24 (4 x 6) total combinations to test. Every visitor to the splash page was randomly shown one of these combinations and we tracked whether they signed up or not. The winning variation had a sign-up rate of 11.6%. The original page had a sign-up rate of 8.26%. That’s an improvement of 40.6% in sign-up rate. What does an improvement of 40.6% translate into? Well, if you assume this improvement stayed roughly consistent through the rest of the campaign, then we can look at the total numbers at the end of the campaign and determine the difference this one experiment had. Roughly 10 million people signed up on the splash page during the campaign. If we hadn’t run this experiment and just stuck with the original page that number would be closer to 7,120,000 sign-ups. That’s a difference of 2,880,000 email addresses.

https://www.optimizely.com/insights/blog/how-obama-raised-60-million-by-running-a-simple-experiment/

 

기부 버튼의 색상, 텍스트, 기부 절차 흐름을 비교해 가장 나은 기부 모금 방법을 찾아내 기부금 모집을 증가시켰다.

 

 

뷰저블 메인페이지

서비스 회원 가입자 수와 문의하기 건수를 늘리도록 방향성을 설정했다.
”사용자들이 Average Fold 영역을 보고 ‘둘러보기’ 행위를 하는 것”을 목표로 삼았다.
이를 위해 “Average Fold 영역을 개선해 이탈률 감소와 PV 당 클릭률을 높이는 것”을 목표로 삼았다.

기간은 7/25~7/31로 7일간 설정했다.

 

  • 현황 분석 및 가설 수립하기
    • 가설 : “캐치프레이즈를 개선하면 페이지 이탈률이 낮아질 것”
      • 현황 분석 내용: UX 툴이라는 점 외에 캐치프레이즈가 뷰저블의 가치와 포지셔닝을 나타내지 못한다.
  • B안 제작하기
    • A안: Visualize UX, Make a Move!
    • B안: 결과만 알려주던 수많은 사용자 지표들, 이제 뷰저블로 UX의 원인과 과정까지 알아보세요!
  • 테스트 진행하기
    • 전체 PV 중 A,B안 각각 30%를 할당, 총 60%를 테스트에 사용
  • 테스트 결과 확인하기
    • 이탈률 감소, PV 당 클릭수 증가 확인
      • A안 대비 전환율 6.6% 증가, PV당 클릭 수 8.2% 증가, PV 중 클릭 비율 6.9% 증가
    • 캐치프레이즈 개선에 대한 가설 검증
    • 히트맵을 통한 효과 확인
      • 캐치프레이즈 부근 사용자 클릭 증가 확인
      • 사용자의 콘텐츠 소비가 캐치프레이즈 영역에 집중
      • 하단 CTA 도달률이 17%에서 26%로 9%p 증가
      • 패스 플롯의 균형성 증가
  • 사용자 의견 조사 실시하기 (정성적)
    • 보다 간결한 문장으로 개선하라는 의견 수렴
    • 여백을 두어 가독성을 향상해야 한다는 의견 수렴
  • 최종 반영하기
    • 최종안 : “이제 뷰저블로 결과는 물론\n UX의 원인과 과정까지 알아보세요!”

 

 

그랩 (동남아시아 판 우버)

 
Source: Grab
 

드라이버의 인센티브를 높이기 위해, 적절한 보상을 고민하던 중 룰렛 스핀 게임을 도입하여 그 효과를 측정하는 A/B 테스팅을 진행했다. 통제 그룹에 비해 해당 게임을 한 그룹은 23% 더 많은 승차 횟수를 보였고, 금전적 보상과 비금전적 보상 사이의 효과는 유의미하게 차이 나지 않았으며, 운행 의지가 1주차에는 5%, 2주차에는 12% 상승했다.

A successful Growth projects is our Spin-to-Win experiment. We started formulating this experiment by asking, “How can we better engage with drivers?”

We knew that gamification is a proven growth strategy and wanted to leverage this concept to drive viral engagement on our platform. In particular, we were inspired by an experiment conducted by psychologist and behaviourist B.F Skinner in the 1960s. (중략)

With too little reward, people (or pigeons!) will disengage.
With too much rewards, people (and pigeons!) will also disengage.

Based on this theory, we wanted to find the right balance in delivering an incentive experience that was delightful yet unobtrusive. The result was the Spin-to-Win game. Because of its popularity, such a game was easily understood, and probabilistic enough to drive engagement.

We developed an A/B test within three weeks and offered both monetary and merchandise rewards to drivers who completed a pre-determined number of rides per day.

https://engineering.grab.com/grabbing-growth-a-growth-hacking-story

 

Grabbing Growth: A Growth Hacking Story

Disrupt or be disrupted - that was exactly the spirit in which the Growth Hacking team was created this year. This was a deliberate decision to nurture our scrappy DNA, and ensure that we had a dedicated space to experiment and enable intelligent risk-taki

engineering.grab.com

 

 

 

넷플릭스

 

Source: Netflix

 

One of the earliest tests we ran was on the single title “The Short Game” — an inspiring story about several grade school students competing with each other in the game of golf. If you see the default artwork for this title you might not realize easily that it is about kids and skip right past it. Could we create a few artwork variants that increase the audience for a title?

To answer this question, we built a very simple A/B test where members in each test cell get a different image for that title. We measured the engagement with the title for each variant — click through rate, aggregate play duration, fraction of plays with short duration, fraction of content viewed (how far did you get through a movie or series), etc. Sure enough, we saw that we could widen the audience and increase engagement by using different artwork. A skeptic might say that we may have simply moved hours to this title from other titles on the service. However, it was an early signal that members are sensitive to artwork changes. It was also a signal that there were better ways we could help our members find the types of stories they were looking for within the Netflix experience. Knowing this, we embarked on an incrementally larger test to see if we could build a similar positive effect on a larger set of titles.

 
Source: Netflix
 

The next experiment ran with a significantly larger set of titles across the popularity spectrum — both blockbusters and niche titles. The hypothesis for this test was that we can improve aggregate streaming hours for a large member allocation by selecting the best artwork across each of these titles.

This test was constructed as a two part explore-exploit test. The “explore” test measured engagement of each candidate artwork for a set of titles. The “exploit” test served the most engaging artwork (from explore test) for future users and see if we can improve aggregate streaming hours.

(중략)

The results from this test were unambiguous — we significantly raised view share of the titles testing multiple variants of the artwork and we were also able to raise aggregate streaming hours. It proved that we weren’t simply shifting hours. Showing members more relevant artwork drove them to watch more of something they have not discovered earlier. We also verified that we did not negatively affect secondary metrics like short duration plays, fraction of content viewed, etc. We did additional longitudinal A/B tests over many months to ensure that simply changing artwork periodically is not as good as finding a better performing artwork and demonstrated the gains don’t just come from changing the artwork.

https://netflixtechblog.com/selecting-the-best-artwork-for-videos-through-a-b-testing-f6155c4595f6

 

Selecting the best artwork for videos through A/B testing

a deeper look at our work in image selection

netflixtechblog.com

 

 

 

 

A/B 테스팅 외 방법으로 개선 결과 검증하기

 

A/B 테스팅을 진행할 수 없는 경우, 개선 결과 검증을 위해 다른 방식을 채택할 수 있다.

  • 히트맵으로 개선 결과 검증하기
    • 사용자의 행동 변화를 파악한다.
      • 페이지 구간별 스크롤 도달률의 변화를 통해 페이지 탐색 성과를 검토한다
      • 페이지 내 태스크 수행 횟수 및 움직임별 체류 시간을 통해 장애 개선을 확인한다
  • 지표를 통해 개선 결과 검증하기
    • 웹사이트의 방향성 및 목적을 명확히 하여 관련 지표를 확인하는 것이 중요하다
    • 분석 기간이 적정한 지를 확인해야 한다 (수개월 정도, 마케팅 및 외부 변수 고려)
    • 전자상거래 사이트)
      • 매출 증가가 목표
        • 매출, 객단가, 고가 상품 구매 비율 등
      • 고객 만족도 증가가 목표
        • 재방문율, 구매 횟수 증가 추이 등