데이터 분석의 힘 후기 및 정리
- 회사 그룹장님이 추천해주셔서 읽은 책!
- 사실 제목이 진부한 느낌이었는데, 의외로 2018년에 8월에 나온 신간!
- 수식을 사용하지 않는 데이터 분석 입문서
- 인과 관계 분석에 대해 다룸
- 후기
- 가볍게 읽기 좋은 내용, 생각보다 알찬 내용! 단 일본어 표현이 조금 생소할 수도 있음
- 우버 사례는 흥미진진!
- Yes24 링크
Chapter 1. 데이터의 상관관계는 인과관계가 아니다
- 인과 관계를 입증하기 어려운 이유
- 1) 다른 요인이 영향을 미쳤을 가능성이 있음
- 2) 인과 관계가 반대일 가능성이 있음
- 상관 관계가 밝혀져도 그것만으론 인과 관계가 있다고 말할 수 없음
- 잠복 변수 V를 최대한 모은 다음 통계 분석에 의해 V의 영향을 배제해야 함
- 문제는 데이터 수가 아닌 편향(bias)
- 잘못된 데이터 분석에서 도출된 오차
Chapter 2. 최선의 데이터 분석법, RCT
- 잠재적 결과를 이용한 인과관계 분석(potential outcome approach)
- 가격 인상 후의 전력 소비량을 \(Y_1\), 인상 전의 소비량은 \(Y_0\)
- 개입 효과
- 트리트먼트 효과
- \(Y_1\) - \(Y_0\)
- 가격 인상(X)이 A의 소비량(Y)에 미친 영향
- 한 사람에 대해 Y1, Y0 2개가 나타날 수 없음
- 개입 집단(treatment group)과 비교 집단(control group)로 나눔
- 가정 : 가격 인상이라는 개입(X)이 없을 경우 비교 집단의 평균 소비량과 개입 집단의 평균 소비량은 같다
- 무작위 비교 시행 (RCT)
- AB Test
- 핵심 : 소비자를 집단으로 나눌 때는 무작위로(random)
- 실험 전에 두 집단의 평균값의 차는 0이어야 함(정말 무작위라면!)
- 원칙
- 1) 적절하게 집단을 나눈다
- 2) 집단은 반드시 무작위로 나눈다
- 3) 집단별로 충분한 표본의 수를 채운다
- 단점
- 비용, 시간, 노력이 많이 듬
- 파급 효과가 없어야 함
- 개입집단에 대한 개입이 비교집단에는 영향을 주지 않는다
- 대책
- 1) 개입집단을 어느 수준으로 설정할지 생각
- 2) 개입효과 외에 개입의 파급효과도 분석할 수 있도록 실험 설계
Chapter 3. 급격한 변화의 경계선을 찾는 RD 디자인
- 회귀 불연속 설계법(RD 디자인)
- 키워드 : 불연속, 경계선
- 의료비 본인부담금은 X, 결꽈인 의료 서비스 이용 수는 Y로 표시할 경우 다음과 같은 가정이 필요
- 만약 경계선에서 본인부담금(X)이 변화하지 않는다면 의료 서비스 이용자 수(Y)도 점프하지 않는다
- 원칙
- 1) 경계선을 기준으로 한 가지 요인(X)만 비연속적으로 변화하는 상황을 찾아냄
- 2) 경계선 부근에서 X 이외의 요인이 비연속적으로 변화하지 않는지 검증
- 단점
- 가상의 데이터에 기초하므로 데이터로 입증하는 것은 불가능
- 경계선 부근에 있는 사람에 대한 인과관계만 측정할 수 있는 단점
- 지리적 경계선을 이용한 RD 디자인 사례
Chapter 4. 계단식 변화가 있는 곳엔 집군분석
- 집합군 사이의 관계를 통해 인과관계를 밝혀내는 것
- 원칙
- 1) 계단식 인센티브를 분석에 이용할 수 있는지 확인
- 2) 분석하고 싶은 변수(X)만 계단식으로 변함. 다른 변수는 계단의 경계점 부근에서 비연속적으로 변화하지 않음
- 3) 인센티브가 크게 바뀌는 경계선에서의 데이터 집적을 분석해 개인/기업이 인센티브의 변화에 어떻게 반응했는지 검증
- 강점
- 가정이 성립하면 경선 부근에서 마치 RCT가 실시된 듯한 상황
- 결과를 그래프로 보여줌
- RCT가 불가능할 경우 유용
- 약점
- 분석에 필요한 가정이 성립할 것이라는 근거를 제시할 수는 있지만 입증할 수는 없음
- 계단식만 가능해서 유용성이 떨어짐
Chapter 5. 시간의 흐름에 따른 패널 데이터 분석
- 패널 데이터 : 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터
- RCT가 불가능할 경우 사용할 수 있는 자연 실험 기법 중 하나
- 이중 차분법(difference in differences methods)
- 원칙
- 1) 개입을 전후해서 개입집단과 비교집단 양쪽의 데이터를 입수할 수 있는지 확인
- 2) 평행 트렌드 가정이 성립하는지 검증
- 3) 평행 트렌드 가정이 성립할 가능성이 높다면 두 집단의 평균값 추이를 그래프로 그려 개입 효과의 평균값을 측정
- 가정
- 개입이 일어나지 않았다면 개입집단의 평균값과 비교집단의 평균값은 평행한 추이를 보임
- 가정을 위해 조사해야 할 것
- 개입 이전의 데이터를 모아 개입집단과 비교집단 사이에 평행 트렌드 가정이 성립하는지 조사
- 개입집단에만 영향을 미친 다른 사건이나 변수가 없었는지 확인
Chapter 6. 데이터는 어떻게 전략이 되는가
- 우버 사례
- 수요 곡선을 추정하는 프로젝트
- 목적지를 입력하고 운전자를 부르면 요금이 표시
- 이 순간 소비자는 표시된 요금으로 운전자를 부를지 말지 선택 ← 수요 곡선을 추정하기 위한 단서
- 그 가격을 보고 소비자가 서비스를 이용했는지 기록
- RCT 사용
- 운전자 수와 이용자 수를 실시간으로 확인해 수급 핍박 지수(surge generator)를 계산
- 지수가 클수록 거리에 나와있는 운전자 수에 비해 이용자 수가 많음
- 가로 : 수요핍박지수
- 세로 : 우버 택시를 부르려고 했던 소비자 가운데 스마트폰에 가격이 표시된 이후 실제로 운전자를 부른 소비자의 비율
- 가격이 오르면 얼마나 줄어드는지 수치로 확인
- 수요 곡선을 추정하는 프로젝트
Chapter 7. 불량 분석을 피하기 위한 방법
- 분석 결과의 외적 타당성
- X가 Y에 미친 영향을 과학적으로 분석할 수 있음
- 여기서 얻은 결과는 분석에 사용된 표본에 적용되는 인과관계
- 분석 결과 인과관계가 도출되면 내적 타당성이 확보되었다고 함
- 실험으로 얻은 분석 결과를 다른 대상에게도 적용할 수 있느냐를 외적 타당성의 문제라고 부름
카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)
PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다
이 글이 도움이 되셨거나 다양한 의견이 있다면 댓글 부탁드립니다 :)