데이터 분석의 힘 후기 및 정리


  • 회사 그룹장님이 추천해주셔서 읽은 책!
    • 사실 제목이 진부한 느낌이었는데, 의외로 2018년에 8월에 나온 신간!
    • 수식을 사용하지 않는 데이터 분석 입문서
    • 인과 관계 분석에 대해 다룸
  • 후기
    • 가볍게 읽기 좋은 내용, 생각보다 알찬 내용! 단 일본어 표현이 조금 생소할 수도 있음
    • 우버 사례는 흥미진진!
  • Yes24 링크


Chapter 1. 데이터의 상관관계는 인과관계가 아니다

  • 인과 관계를 입증하기 어려운 이유
    • 1) 다른 요인이 영향을 미쳤을 가능성이 있음
    • 2) 인과 관계가 반대일 가능성이 있음
  • 상관 관계가 밝혀져도 그것만으론 인과 관계가 있다고 말할 수 없음
  • 잠복 변수 V를 최대한 모은 다음 통계 분석에 의해 V의 영향을 배제해야 함
  • 문제는 데이터 수가 아닌 편향(bias)
    • 잘못된 데이터 분석에서 도출된 오차

Chapter 2. 최선의 데이터 분석법, RCT

  • 잠재적 결과를 이용한 인과관계 분석(potential outcome approach)
    • 가격 인상 후의 전력 소비량을 \(Y_1\), 인상 전의 소비량은 \(Y_0\)
    • 개입 효과
      • 트리트먼트 효과
      • \(Y_1\) - \(Y_0\)
      • 가격 인상(X)이 A의 소비량(Y)에 미친 영향
      • 한 사람에 대해 Y1, Y0 2개가 나타날 수 없음
  • 개입 집단(treatment group)과 비교 집단(control group)로 나눔
    • 가정 : 가격 인상이라는 개입(X)이 없을 경우 비교 집단의 평균 소비량과 개입 집단의 평균 소비량은 같다
  • 무작위 비교 시행 (RCT)
    • AB Test
    • 핵심 : 소비자를 집단으로 나눌 때는 무작위로(random)
    • 실험 전에 두 집단의 평균값의 차는 0이어야 함(정말 무작위라면!)
    • 원칙
      • 1) 적절하게 집단을 나눈다
      • 2) 집단은 반드시 무작위로 나눈다
      • 3) 집단별로 충분한 표본의 수를 채운다
    • 단점
      • 비용, 시간, 노력이 많이 듬
      • 파급 효과가 없어야 함
        • 개입집단에 대한 개입이 비교집단에는 영향을 주지 않는다
        • 대책
          • 1) 개입집단을 어느 수준으로 설정할지 생각
          • 2) 개입효과 외에 개입의 파급효과도 분석할 수 있도록 실험 설계

Chapter 3. 급격한 변화의 경계선을 찾는 RD 디자인

  • 회귀 불연속 설계법(RD 디자인)
    • 키워드 : 불연속, 경계선
    • 의료비 본인부담금은 X, 결꽈인 의료 서비스 이용 수는 Y로 표시할 경우 다음과 같은 가정이 필요
      • 만약 경계선에서 본인부담금(X)이 변화하지 않는다면 의료 서비스 이용자 수(Y)도 점프하지 않는다
  • 원칙
    • 1) 경계선을 기준으로 한 가지 요인(X)만 비연속적으로 변화하는 상황을 찾아냄
    • 2) 경계선 부근에서 X 이외의 요인이 비연속적으로 변화하지 않는지 검증
  • 단점
    • 가상의 데이터에 기초하므로 데이터로 입증하는 것은 불가능
    • 경계선 부근에 있는 사람에 대한 인과관계만 측정할 수 있는 단점
  • 지리적 경계선을 이용한 RD 디자인 사례

Chapter 4. 계단식 변화가 있는 곳엔 집군분석

  • 집합군 사이의 관계를 통해 인과관계를 밝혀내는 것
  • 원칙
    • 1) 계단식 인센티브를 분석에 이용할 수 있는지 확인
    • 2) 분석하고 싶은 변수(X)만 계단식으로 변함. 다른 변수는 계단의 경계점 부근에서 비연속적으로 변화하지 않음
    • 3) 인센티브가 크게 바뀌는 경계선에서의 데이터 집적을 분석해 개인/기업이 인센티브의 변화에 어떻게 반응했는지 검증
  • 강점
    • 가정이 성립하면 경선 부근에서 마치 RCT가 실시된 듯한 상황
    • 결과를 그래프로 보여줌
    • RCT가 불가능할 경우 유용
  • 약점
    • 분석에 필요한 가정이 성립할 것이라는 근거를 제시할 수는 있지만 입증할 수는 없음
    • 계단식만 가능해서 유용성이 떨어짐

Chapter 5. 시간의 흐름에 따른 패널 데이터 분석

  • 패널 데이터 : 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터
  • RCT가 불가능할 경우 사용할 수 있는 자연 실험 기법 중 하나
  • 이중 차분법(difference in differences methods)
  • 원칙
    • 1) 개입을 전후해서 개입집단과 비교집단 양쪽의 데이터를 입수할 수 있는지 확인
    • 2) 평행 트렌드 가정이 성립하는지 검증
    • 3) 평행 트렌드 가정이 성립할 가능성이 높다면 두 집단의 평균값 추이를 그래프로 그려 개입 효과의 평균값을 측정
  • 가정
    • 개입이 일어나지 않았다면 개입집단의 평균값과 비교집단의 평균값은 평행한 추이를 보임
  • 가정을 위해 조사해야 할 것
    • 개입 이전의 데이터를 모아 개입집단과 비교집단 사이에 평행 트렌드 가정이 성립하는지 조사
    • 개입집단에만 영향을 미친 다른 사건이나 변수가 없었는지 확인

Chapter 6. 데이터는 어떻게 전략이 되는가

  • 우버 사례
    • 수요 곡선을 추정하는 프로젝트
      • 목적지를 입력하고 운전자를 부르면 요금이 표시
      • 이 순간 소비자는 표시된 요금으로 운전자를 부를지 말지 선택 ← 수요 곡선을 추정하기 위한 단서
      • 그 가격을 보고 소비자가 서비스를 이용했는지 기록
      • RCT 사용
      • 운전자 수와 이용자 수를 실시간으로 확인해 수급 핍박 지수(surge generator)를 계산
        • 지수가 클수록 거리에 나와있는 운전자 수에 비해 이용자 수가 많음
      • 가로 : 수요핍박지수
      • 세로 : 우버 택시를 부르려고 했던 소비자 가운데 스마트폰에 가격이 표시된 이후 실제로 운전자를 부른 소비자의 비율
    • 가격이 오르면 얼마나 줄어드는지 수치로 확인

Chapter 7. 불량 분석을 피하기 위한 방법

  • 분석 결과의 외적 타당성
    • X가 Y에 미친 영향을 과학적으로 분석할 수 있음
    • 여기서 얻은 결과는 분석에 사용된 표본에 적용되는 인과관계
    • 분석 결과 인과관계가 도출되면 내적 타당성이 확보되었다고 함
  • 실험으로 얻은 분석 결과를 다른 대상에게도 적용할 수 있느냐를 외적 타당성의 문제라고 부름

카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)

PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다

이 글이 도움이 되셨거나 다양한 의견이 있다면 댓글 부탁드립니다 :)

Buy me a coffeeBuy me a coffee





© 2017. by Seongyun Byeon

Powered by zzsza