Rules of Machine Learning: Best Practices for ML Engineering 정리

Google의 Research Scientist인 Martin Zinkevich가 작성하신 Rules of Machine Learning: Best Practices for ML Engineering 나름대로 번역하고 정리한 글입니다
Machine Learning Guides에 언어를 한국어로 조정하면 번역본이 나오지만, 개인 학습 목적으로 정리했습니다(4부까지만 번역하고 그 이후는 번역하지 않았으니 원본이 궁금하시면 꼭 링크를 참고해주세요)
- 정리하며 제가 이해한 상태로 정리했고, 추가적으로 제가 아는 내용을 덧붙였습니다

Best Practices for ML Engineering

이 문서는 머신러닝에 대한 기본 지식을 가진 사람들이 Google의 머신러닝 best practice의 장점을 얻을 수 있도록 돕기 위한 문서
Google C++ 스타일 가이드처럼 머신러닝 관련한 실용적인 내용을 전달함
머신러닝 모델을 개발하거나 다뤄본 경험이 있다면 이 문서를 읽기 위한 배경 지식을 갖춘 것

Terminology(용어)

반복적으로 사용될 용어 정의
Instance : 예측하려는 대상. 웹페이지를 “고양이와 관련”, “고양이와 무관”으로 분류하려는 경우 웹페이지가 인스턴스임
Label : 예측 작업에 관한 답으로, 머신러닝 시스템이 도출하거나 학습 데이터에서 제공된 정답
Feature : 예측 작업에 사용되는 인스턴스의 속성. ‘웹페이지에 고양이란 단어가 나온 횟수’ 등을 예로 들 수 있음
Feature Column : 관련된 feature의 집합. 예를 들어 사용자가 거주할 수 있는 모든 국가의 집합. Feature column은 Google에서만 사용되는 용어고, Yahoo/Microsoft에선 namespace라고 함
Example : Instance(Feature 포함) 및 Label
Model : 예측 작업의 통계적 표현(statistical representation) example을 사용해 모델을 학습한 후, 그 모델을 사용해 예측함
Metric : 관심이 있는 수치. 직접 최적화될 수 있고, 아닐수도 있음
Objective : 알고리즘에서 최적화하려는 Metric
Pipeline : 머신러닝 알고리즘을 둘러싼 인프라. 프론트엔드는 데이터를 수집하고, Train 데이터 저장, 모델 Train, 모델 Production으로 내보내는 것을 포함함
Click-through Rate : 광고에서 링크를 클릭하는 비율

Overview

멋진 제품을 만들기 위해, 머신러닝 전문가 흉내를 내지 말고 훌륭한 엔지니어처럼 머신러닝을 활용해야 함
실제로 직면하는 문제는 대부분 엔지니어링 문제임. 결국 좋은 Feature를 갖는 것이 중요함
기본 접근 방법
- 1) 파이프라인이 end to end로 견고하게 되어있는지 확인
- 2) 합리적인 objective로 시작
- 3) 간단한 방법으로 상식적인 feature 추가
- 4) 파이프라인이 견고하게 되어있는지 확인
이 접근법은 오래 사용할 수 있고, 혹시 기본 접근 방법으로 더 이상 진행할 수 없는 경우 다른 방식을 찾아야 함
복잡성을 증가시키면 개발은 느려짐
기본 접근 방법으로 부족하면 최첨단 머신러닝 기법을 도전할 때고, 3단계 섹션을 참고하면 됨
이 문서의 구성
- 1부 : 머신러닝 시스템을 구축하기에 적절한 시점에 대한 이야기
- 2부 : 첫 파이프라인을 구축하는 방법
- 3부 : 파이프라인에 새 Feature를 추가하며 계속 출시, 반복하는 과정에 대한 이야기 + 모델 training-serving의 skew를 평가하는 방법
- 4부 : 개선이 한계에 부딪힌 경우 대처하는 방법
- 부록 : 자주 사용되는 시스템에 관한 배경 지식

1부. Before Machine Learning

Rule #1: 머신러닝 없이 제품을 출시하는 것을 두려워하지 말기
- 머신러닝은 매우 cool하지만, 데이터가 필요함
- 다른 문제로 데이터를 가져와서 모델을 살짝 수정해 적용하는 방법은 이론적으론 가능하지만 휴리스틱보다 성능이 떨어질 가능성이 높음
- 머신러닝의 효과를 100% 기대한다면 휴리스틱을 사용해도 50%의 효과는 볼 수 있음
- 예 : 앱 마켓플레이스에서 앱 순위를 매길 때 설치율, 설치 횟수를 휴리스틱으로 사용할 수 있음, 스팸을 감지할 때 전에 스팸을 보낸 적이 있는 발신자를 걸러내면 됨. 연락처의 순위를 매길시 최근에 자주 사용한 연락처 순으로 해도 됨
- 머신러닝이 제품에 정말 필요한 기능이 아니면 데이터를 충분히 수집하기 전엔 사용하지 말기
Rule #2: 가장 먼저 측정 항목(Metric)을 설계하고 구현하기
- 머신러닝 시스템을 구축하기 전에 현재 시스템을 최대한 많이 알고 있어야 함. 그 이유는 다음과 같음
  - 1) 시스템 사용자에게 미리 사용 권한을 받기 쉽다
  - 2) 미래에 발생할 수 있는 문제가 있다면 지금부터 과거 데이터를 수집하는 것이 좋음
  - 3) metric 측정을 염두에 두고 시스템을 설계하면 나중에 편함. 구체적으로 metric을 위해 로그에서 문자열을 모두 grep할 필요가 없이 설계하면 됨
  - 4) 무엇이 바뀌고 무엇이 동일하게 유지되는지 알 수 있음. 예를 들어 1일 활성 사용자 수를 최적화하려고 할 때, 사용자 경험을 크게 바꿔도 metric에 눈에 띄는 변화가 없을 수 있음
- Google Plus 팀은 read당 exapand 수, read당 reshare 수, read당 plusones 수, 댓글/읽기, 유저당 댓글 수, 유저당 재공유 횟수 등을 측정해 게시물의 품질을 계산할 때 사용함. 그리고 사용자를 그룹화해 실험할 수 있는 실험 프레임워크를 갖추는 것이 중요함. Rule #12 참고
- Metric을 적극적으로 모니터링할수록 시스템을 전반적으로 파악하기 쉬워짐. 문제를 찾았다면 metric에 추가해 모니터링. 최근 릴리즈에 만족할만한 정량적 변화가 있었다면 metric에 추가하자
Rule #3: 휴리스틱이 복잡하면 머신러닝을 선택하기
- 단순한 휴리스틱만 갖춰도 제품을 출시할 수 있음
- 휴리스틱이 복잡하면 유지보수가 불가능
- 데이터가 확보되고 달성하려는 목표가 확실해지면 머신러닝으로 진행할 수 있음
- 소프트웨어 엔지니어링 작업에서 휴리스틱/머신러닝 모델인지 상관없이 계속 업데이트가 필요함
- 머신러닝 모델이 휴리스틱보다 업데이트 및 유지보수가 쉬움. Rule 16 참고

2부. ML 1단계: Your First Pipeline

첫 파이프라인에선 시스템 인프라에 집중하기
머신러닝의 가능성에 대해 상상하는 것도 재미있지만, 파이프라인을 먼저 믿지 않으면 어떤 일이 일어나는지 파악하기 어려움(=파이프라인이 확실해야 현재 상황을 제대로 파악할 수 있음)
Rule #4: 최초 모델은 단순하게 가져가고 인프라를 제대로 만들기
- 첫 모델은 제품 개선에 가장 크게 기여하기 때문에 처음부터 화려한 기능을 갖추지 않아도 됨
- 그러나 인프라가 예상보다 더 문제를 겪을 수 있음
- Facny한 새 머신러닝 시스템을 사용하기 전에 다음과 같은 내용을 결정해야 함
  - 학습 알고리즘에 example을 제공할 방법
  - 시스템의 good과 bad를 판단할 기준
  - 모델을 Application에 통합할 방법. 모델을 실시간으로 적용할 수 있고, 미리 예측해 결과를 Table에 저장할 수 있음. 예를 들어 웹페이지는 미리 분류해 테이블에 결과를 저장하고, 채팅 메세지는 실시간으로 분류할 수 있음
  (역자) : 실시간으로 적용하는 경우엔 Flask, TF Serving 등을 사용해 API로 제공하는 방식이 있고, 배치성으로(1시간에 1번) 진행할 경우엔 Database에 저장하는 방식이 있음
- 단순한 Feature를 선택하면 다음 작업을 쉽게 진행할 수 있음
  - Feature가 학습 알고리즘에 정확히 도달함
  - 모델이 합리적인 weight를 학습함
  - Feature가 서버의 모델에 정확히 도달함
- 이런 3가지 과제를 안정적으로 달성할 시스템을 만들었으면, 대부분의 일을 한 것임
- 이제 단순한 모델에서 baseline metric과 baseline behavior를 얻어 더 복잡한 모델을 테스트할 때 활용할 수 있음
- (구글의) 어떤 팀에선 “중립적”인 최초 런칭을 목표로 하는데, 이는 머신러닝으로 얻을 당장의 이익에 집착하지 않고 본질의 목표에 집중하기 위함임
Rule #5: 머신러닝과 별도로 인프라 테스트하기
- 인프라틑 테스트할 수 있어야하고, 시스템의 train 부분은 캡슐화해야 모든 관련 부분을 테스트할 수 있음. 특히 다음과 같은 작업이 필요함
  - 1) 알고리즘에 데이터를 넣는 기능 테스트
    - 생성되야 하는 Feature가 잘 채워졌는지 확인
    - 개인정보 보호하는 범위 내에서 input 값을 직접 조사
    - 가능하면 파이프라인의 통계를 다른 곳에서(로컬 등) 데이터 처리해 나온 통계와 비교
  - 2) 모델을 알고리즘에서 추출하는 기능 테스트
    - Train 환경의 모델이 주는 점수와 Serving 환경의 모델과 동일한지 확인. Rule 37 참조
- 머신러닝엔 예측 불가능성이 있어서, Train 및 Serving시 Example을 생성하는 코드를 테스트할 준비하고, Serving 중 고정된 모델을 로드해 사용할 수 있는지 확인해야 함
- 또한 데이터를 이해하는 것이 중요함. Practical advice for analysis of large, complex data sets 참고
Rule #6: 파이프라인을 복사할 땐 데이터 누락 주의하기
- 기존 파이프라인을 복사해 새로운 파이프라인을 만들었는데, 새 파이프라인에 필요한 데이터가 기존 파이프라인에 누락되는 경우가 종종 있음
- 예를 들어 Google+ HOT 소식의 파이프라인은 최신 게시물의 순위를 매기는 것이 목적이라 과거 게시물들이 유의미한데, 복사해온 파이프라인에서 과거 게시물들을 누락시킴
  - 이 파이프라인을 Google+ 스트림에 사용하기 위해 복사했더니 이 기능에선 과거 게시물들이 누락됨
  - 사용자가 트정 게시물을 조회하지 않은 이유를 모델링할 경우 negative example이 모두 누락되므로 결국 쓸모없는 데이터가 됨
  - Play에도 비슷한 문제가 있었음. Play 앱 홈 화면을 만들며 Play 게임 방문 페이지의 Example을 포함한 파이프라인을 새로 만들었는데, 각 example의 출처를 구분짓지 않았음
Rule #7: 휴리스틱을 Feature로 변환하거나 외부에서 처리하기
- 머신러닝으로 해결하려는 문제들은 보통 새로 등장한 Problem은 아님. 순위 결정, 분류 등 어떤 문제든 과거에 사용하던 기존 시스템이 있음
- 따라서 수많은 규칙(Rule base), 휴리스틱이 이미 존재함
- 휴리스틱 + 머신러닝의 조합
- 기존 휴리스틱을 철저히 분석해야 함. 첫번째로 머신러닝 시스템으로 전환이 더 원활해짐. 둘째로 이런 규칙은 시스템에 대한 직관을 풍부하게 담고 있음. 다음 4가지 방법으로 휴리스틱을 사용할 수 있음
  - 1) 휴리스틱을 사용해 전처리
    - 믿을 수 없을만큼 awesome한 feature인 경우 고려할 수 있음
    - 예를 들어 스팸 필터에서 보낸 사람이 이미 차단 목록에 들어있으면 차단 목록을 다시 학습할 필요없음. 단순히 메세지를 차단하면 됨
  - 2) Feature 생성
    - 휴리스틱에서 직접 Feature 생성
    - 예를 들어 휴리스틱을 사용해 쿼리 결과의 유사도 점수를 계산할 경우 이 점수를 Feature로 넣을 수 있음
    - 이후에 머신러닝 기법을 사용해 값을 조정할 수 있지만 처음엔 휴리스틱에서 나오는 값을 그대로 사용해도 됨
  - 3) 휴리스틱의 input을 Feature로 사용
    - 앱의 설치 횟수, 텍스트 문자 수, 요일을 결합하는 휴리스틱이 있다면 이런 값을 학습에 제공하는 것이 좋음. 이 때 앙상블에 적용되는 기법이 일부 적용됨. Rule 40 참조
  - 4) Label을 수정
    - 휴리스틱이 현재 Label에 포함되지 않는 정보를 포착하면 이 방법을 사용할 수 있음
    - 예를 들어 다운로드 횟수를 극대화하며 컨텐츠 품질에도 중점을 두려면 앱이 받은 평균 별점 수로 label을 곱하는 것이 답일 수 있음. 정해진 방식은 없음. 첫 목표 참고
- ML 시스템에서 휴리스틱을 사용하는 경우 복잡도가 추가되는 것을 주의해야 함. 새로운 머신러닝 알고리즘에 기존 휴리스틱을 사용하면 전환이 원활할 수 있지만, 더 간단한 방법으로 같은 효과를 낼 수 없는지 고민해보면 좋음

모니터링

일반적으로 알림에 실제 정보를 추가하고 모니터링할 수 있는 대시보드 페이지를 마련하곤 함
Rule #8: 시스템의 갱신(freshness) 요구사항을 파악하기
- 모델이 하루, 1주일, 1분기 뒤에 성능이 얼마나 떨어지는지?
- 이 정보는 모니터링의 우선순위를 판단할 때 도움이 됨
- 하루동안 모델을 업데이트하지 않았더니 제품의 품질이 떨어지는 경우 모델을 지속적으로 모니터링하는 엔지니어를 두는 것이 좋음
- 광고 시스템같이 매일 새로운 광고가 유입되는 경우 업데이트가 매일 진행되야 함
- 예를 들어 Google Play 검색의 모델이 업데이트되지 않으면 1개월 이내에 부정적인 영향을 미침
- Google+의 HOT 소식에서 게시물 id를 갖지 않는 일부 모델은 자주 내보낼 필요가 없고, 게시물 id를 갖는 모델은 자주 업데이트됨
- 갱신 기준은 시간에 따라 변화할 수 있음(특히 모델에서 feature column이 추가되거나 삭제될 경우)
Rule #9: 모델을 내보내기 전에 문제를 탐지하기
- 많은 머신러닝 시스템엔 모델을 서빙 환경으로 내보내는 단계가 있음. 내보낸 모델에 문제가 있는 경우 유저가 바로 알아차림
- 모델을 내보내기 전에 sanity check(품질 검사)를 해야 함
- 홀드아웃 데이터에 대해 모델의 성능이 적절한지 확인해야 함
- 또는 데이터의 신빙성이 의심되면 모델을 내보내지 말아야 함
- 계속 모델을 내보내는 팀은 대부분 AUC를 확인한 후 내보냄
- 모델을 제때 내보내지 못하는 것은 이메일 알림으로 해결할 수 있지만, 문제 있는 모델을 제공하면 사태가 커짐
- 따라서 유저에게 영향을 미치는 것보다 늦는게 나을 수 있음
Rule #10: 조용한 실패(silent failures)에 주의하기
- 개발 시스템보다 머신러닝 시스템에서 자주 나타나는 문제
- Join 대상이 되는 특정 테이블이 더 이상 업데이트되지 않는 경우, 이 테이블 기반으로 머신러닝 시스템을 구축하면 겉보기엔 특별한 문제가 없어도 실제론 성능이 점점 떨어짐
  - 몇 달 동안 그대로였던 테이블을 갱신하는 것으로 놀라운 성능 개선 효과를 거둘 수 있음
- 구현 변경으로 Feature의 포함 범위가 바뀌기도 함
  - Feature column이 90%에서 60%로 급락할 수 있음
- 데이터의 통계를 모니터링하면 이런 유형의 실패를 줄일 수 있음
Rule #11: Feature column에 소유자를 지정하고 문서화하기
- 시스템의 규모가 크고 Feature column이 많은 경우 각 컬럼을 누가 만들었고, 관리하는지 알아야 함
- 담당자가 조직을 떠날 경우 철저한 인수인계가 이루어져야 함
- 이름만 봐도 의미를 알 수 있는 Feature column도 많지만, 특성의 의미, 출처, 유용성을 자세히 기록해두는 습관을 들이는 것이 좋음

첫 목표(Objective)

시스템에서 중요한 metric이 아무리 많아도 머신러닝 알고리즘에 필요한 목표(objective), 알고리점에서 최적화할 수치는 일반적으로 단 하나
Objective와 Metric을 잘 구분해야 함
Metric은 시스템에서 보고하는 다양한 숫자들로 중요할 수도, 중요하지 않을 수도 있음. Rule #2 참조
Rule #12: 어떤 objective를 직접 최적화할지 너무 고민하지 말기
- 당신은 돈을 벌거나, 유저를 행복하게 만들거나, 세상을 더 좋게 만드는데 기여하는 것을 원할것임
- 중요하게 생각할 metric은 무수히 많고, 이것들을 모두 측정해야 함
- 그러나 머신러닝 초기엔 모든 metric이 증가하는 것을 알 수 있음
  - 예를 들어 클릭수 및 사용 시간이 중요하다고 가정한 경우, 클릭수를 최적화하면 사용 시간도 증가할 가능성이 높음
- 모든 metric이 쉽게 증가할 수 있으므로, 다양한 metric 간 균형을 맞추려고 고민하지 말고 단순하게 생각하면 됨
- 하지만 이 규칙에도 한계가 있음. objetive와 시스템의 절대적 안전성을 혼돈해선 안됨(Rule 39 참조)
- 또한 직접 최적화하는 metric은 개선되지만 결국 출시에 실패하는 상황이 반복되면 objective를 수정해야 할 수 있음
Rule #13: 단순하고 관찰 가능하고 추적 가능한 metric을 첫 목표로 선택하기
- 궁극적인 목표를 미리 알지 못하는 경우도 많음
- 목표를 일단 정하고, 기존 시스템과 새로운 머신러닝 시스템 데이터를 나란히 분석하면 목표를 수정하고 싶어짐
- 궁극적인 목표에 대해 팀원들의 의견이 다를 수 있음
- ML Objective는 측정하기 쉬우면서 진정한 목표를 반영해야 함
- 단순한 ML 목표를 기준으로 학습하되, 다른 로직(이왕이면 단순한)을 추가해 최종 순위를 결정할 수 있도록 “policy layer”를 상단에 두는 것이 좋음
- 가장 모델링하기 쉬운 대상은 직접 관찰되고 시스템 동작과 인과성을 추적할 수 있는 사용자 행동
  - Ranked list가 클릭되었는가?
  - Ranked object가 다운되었는가?
  - Ranked object가 전달, 회신, 이메일로 발성되었는가?
  - Ranked object가 평가되었는가?
  - 보이는 object가 스팸/음란물/불쾌감을 주는 컨텐츠로 신고되었는가?
- 간접 효과는 처음에 모델링하지 말기
  - 사용자가 다음 날 방문했는가?
  - 사용자가 사이트를 얼마나 오래 방문했는가?
  - 일일 활성 사용자 수는 몇인가?
- 간접 효과도 좋은 metric으로 AB Test 및 출시 결정에 활용될 수 있음
- 다음과 같은 의문을 해결할 때 머신러닝을 사용하지 말기
  - 사용자가 제품을 만족하고 있는가?
  - 사용자 경험이 만족스러운가?
  - 제품이 사용자의 전반적인 삶의 질을 높여주는가?
  - 회사의 전반적인 건강함에 어떤 영향을 주는가?
- 모두 중요하지만 측정하기가 매우 어려움. 간접적인 기준으로 대신하자
- 사용자가 만족감을 느낀다면 사이트에 더 오래 머무르고, 다음 날 다시 방문할 것임
- 삶의 질이나 회사의 건강함과 관련되는 부분은 사람의 판단이 필수적
Rule #14: 해석 가능한 모델부터 시작하면 디버깅이 쉬움
- 선형 회귀, 로지스틱 회귀, 푸아송 회귀는 확률론 모델에서 나온 것들임
- 각 예측은 확률 또는 기대값으로 해석할 수 있음
- 예를 들어 Train 시스템의 확률이 병렬로 운영되거나 별도로 조사된 프러덕션 시스템의 확률과 차이가 나면 이를 통해 문제가 드러날 수 있음
- 단순 모델에선 feedback loop를 다루는 방법이 더 쉬움(Rule #36 참조) 이런 확률 예측을 근거로 결정내리는 경우가 많음
- 클릭 확률, 다운로드 확률 등의 기대값에 따라 내림차순으로 게시물의 순위를 매길 수 있음
- 그러나 어떤 모델을 사용할지 선택할 땐 모델에 제공된 데이터의 확률보다 Decision이 더 중요함(Rule #26 참조)
Rule #15: Policy Layer에 스팸 필터링과 Quality Ranking을 분리하자
- Quality Ranking이 예술이라면 스팸 필터링은 전쟁임
- 사용자들은 게시물의 품질을 판단하는데 사용하는 지표를 금방 알아차리고 게시물을 적당히 손질해 이런 속성을 갖게 만듬(인스타그램 생각하면 쉬울듯)
- 따라서 Quality Ranking에선 정상적인 의도로 게시된 컨텐츠의 순위를 매기는 데 집중해야 함
- 스팸의 순위를 높게 매겼다고 해서 Quality Ranking 학습 시스템을 평가절하해선 안됨
- 선정적인 컨텐츠도 마찬가지 이유로 Quality Ranking과 별도로 처리해야 함
- 때론 시스템에 규칙을 도입하기도 함 : 스팸 신고가 3회 초과하면 게시물은 제외한다
- 학습 모델은 최소 하루 1번 이상 업데이트되야 하고, 컨텐츠 작성자의 평판도 큰 역할을 함
- 이런 두 시스템의 출력을 일정 수준에서 통홥해야 함
- 주의 : 검색 결과의 스팸 필터링은 이메일보다 더 공격적이어야 함
  - 정규화를 사용하지 않고 알고리즘이 수렴한다는 전제 하에 이 사실은 참임
- 스팸은 품질 분류용 학습 데이터에서 제외하는 것이 일반적인 관행임

3부. ML 2단계: Feature Engineering

머신러닝 시스템 lifecycle의 첫 단계에서 중요한 이슈는 Train 시스템에 데이터를 공급하고, 의미있는 metric을 측정하고 서빙 인프라를 구축하는 것
unit test와 system test를 갖춘 정상적인 end to end 시스템을 구축했다면 2단계로 넘어가자
2단계는 다양하고 알기 쉬운 Feature를 시스템에 넣으면 됨
- 머신러닝 2단계에서선 최대한 많은 Feature를 직관적인 방식으로 넣는 것에 관심을 가짐
- 이 단계는 모든 metric이 상승세를 보여야 함
- 출시를 반복하며 필요한 데이터를 모두 모아 train 시스템의 성능을 극대화해야 함
Rule #16: 출시와 반복을 계획하기
- 지금 작업 중인 모델이 마지막 출시 버전이 될 것이라거나, 반복적인 모델 출시가 언젠가 끝날거라는 기대는 버리면 좋음
- 이번 출시에서 추가되는 복잡성으로 인해 이후 출시가 늦춰질 가능성이 있는지 고려해야 함
- 많은 팀에서 지금까지 분기당 1회 이상 출시를 진행함
- 새 모델을 출시하는 기본적인 3가지 이유
  - 새로운 Feature 도입
  - 정규화 조정 및 이전 Feature를 새로운 방식으로 결합
  - objective 조정
- 모델에 관심을 기울이면 좋은 결과가 나올 수 있음. Example에 공급되는 데이터를 조사해 새로운 지표 또는 잘못된 기존 지표를 찾을 수 있음
- 모델을 만들며 Feature 추가, 삭제, 재결합이 쉬어야 함
- 파이프라인의 사본을 만들고 정확성을 검증하기가 쉬울까?
- 둘 이상의 사본을 동시에 실행하는 방법은 어떻게 할까?
- 특정 Feature가 이번 파이프라인 버전에 포함될지 고민하지 말기. 다음 출시에 포함해도 됨
Rule #17: 학습된(learned) feature이 아닌 직접 관찰하고 보고된 feature부터 시작하기
- 논란의 여지가 있는 주장이지만, 많은 함정을 피할 수 있음
- 우선 학습된 feature는 외부 시스템(예 : 비지도 클러스터링 시스템) 또는 학습 시스템 자체(예 : Factored model이나 딥러닝)에서 생성된 Feature
  - 이런 Feature가 유용할 수 있지만 여러 문제점을 가질 수 있으므로 최초 모델에는 포함해서 안됨
- 외부 시스템을 사용해 Feature를 만드는 경우 외부 시스템엔 그 시스템의 목표가 있다는 것을 기억해야 함
  - 그 외부 시스템의 목표와 나의 현재 목표와 상관이 낮을 수 있음
- 외부 시스템에서 스냅샷을 가져오는 경우 최신 데이터가 아닐 수 있음
- 외부 시스템의 특성을 업데이트하는 경우 의미가 변질될 수 있음
- 따라서 외부 시스템을 사용해 Feature를 제공하는 방식을 사용하려면 매우 신중한 접근법이 필요함
역자 : 날씨나 공공 데이터 API를 받아서 학습하는 경우, 데이터 제공측에서 바꾸면.. 파이프라인이 망가지는데 그 예시와 비슷한 느낌
- Factored model과 딥러닝 모델은 nonconvex(볼록하지 않다)는 성질이 있음
  - 따라서 최적 해를 구하거나 근사할 수 있단 보장이 없고, 반복할 때마다 다른 local minima가 발견될 수 있음
  - 이런 variation이 시스템 변경에 따르는 영향인지 무작위적인지 판단하기 어렵게 만듬
- deep feature 없이 모델을 만들면 탁월한 baseline 성능을 얻을 수 있고, 이 기준이 확보된 이후 특이하고 복잡한 접근법을 시도하면 좋음
Rule #18: 여러 Context로 일반화되는 컨텐츠의 feature 찾기
- 머신러닝 시스템은 더 거대한 시스템의 일부인 경우가 많음
- 예를 들어 HOT 소식에 올라갈만한 게시물은 HOT 소식에 올라가기 전에 많은 사람의 +1, 재공유, 댓글을 받음
  - 학습 시스템에 이런 통계를 제공하면 최적화 컨텍스트와 관련해 어떤 데이터도 갖지 않는 새로운 게시물이 추천될 수 있음
  - 유튜브의 다음 볼만한 동영상 기능에는 시청 횟수, 연계 시청 횟수를 사용할 수 있음
  - 또한 명시적인 사용자 평가를 사용할 수도 있음
- 마지막으로 label로 사용 중인 사용자 행동이 있다면 다른 컨텍스트의 자료에 대해 같은 행동을 파악해 좋은 feature를 생성할 수 있음
- 이런 모든 feature가 새로운 컨텐츠를 가져오도록 기여함
- 단, 개인화는 여기에 포함되지 않음. 이 컨텍스트에서 컨텐츠를 좋아하는 사람이 있는지 알아낸 후 누가 컨텐츠를 좋아하거나 싫어하는지 알아내는 방식으로 진행함
Rule #19: 가능하면 매우 구체적인 Feature를 사용하기
- 소수의 복잡한 feature보다 다수의 단순한 feature를 학습하는 것이 더 간편함
- 검색 대상 문서의 id 및 규격화된 쿼리는 일반화에 크게 기여하지 못하지만, head query에서 순위와 label을 맞춰주는 역할을 함
- 따라서 feature 그룹에서 각 feature가 데이터의 매우 작은 부분에만 적용되더라도 전체 coverage가 90% 넘으면 걱정할 필요가 없음
- 정규화를 사용하면 작은 example에 적용되는 feature를 배제할 수 있음
Rule #20: 사람이 이해할 수 있는 방식으로 기존 feature를 결합하고 수정해 새로운 feature를 만들자
- feature를 결합하고 수정하는 방법은 다양함. Tensorflow에선 Transformation을 이용해 데이터 전처리하는 방법을 제공함
- 가장 표준적인 방식은 이산화(discretization)와 교차(cross)임
- Discretization : continuous feature를 불연속 feature로 만드는 것. 나이를 10세, 15세 보지 않고 10대, 20대 등으로 하는 것. 히스토그램의 경계를 너무 고민하지 않고 기본적인 분위 사용해도 효과를 얻을 수 있음
- Cross : 둘 이상의 feature column을 결합. {남성, 여성} x {미국, 캐나다, 멕시코}의 특성으로 구성된 새로운 feature
  - 매우 큰 feature column을 생성하는 교차는 오버피팅을 초래할 수 있음
  - 예를 들어 검색 기능을 만들며 검색어 단어를 포함하는 feature와 문서의 단어를 포함하는 feature를 준비할 수 있음. 이걸 교차하면 매우 많음 feature가 생김(Rule #21 참고)
- Text를 다룰 때 두가지 대안이 있음
  - 가장 엄격한 방법은 내적을 구함
  - 가장 단순한 내적은 검색어와 문서가 공통적으로 갖는 단어의 수를 세는 것
    - 그 후 이 feature를 불연속화
  - 내적을 구하는 다른 방식은 교집합을 구하는 것
Rule #21: 선형 모델에서 학습 가능한 feature weight의 수는 데이터 보유량에 대략적으로 비례함
- 모델의 적절한 복잡도에 관한 훌륭한 통계 이론은 많지만, 지금은 이 규칙만 명심하면 됨
- Example이 1,000개에 불과한데 학습할 수 있는지 의심하는 사람들도 있고, 예시가 100만개 정도 있으면 특정 학습 방식에 고착되므로 그 이상 필요 없다고 생각하는 사람도 있음. 비결은 데이터 사이즈에 학습 규모를 맞추는 것
  - 1) 검색 랭킹 시스템에서 문서와 쿼리에 수백만가지 단어가 있는데 라벨이 있는 example은 1000개뿐이라면 문서 특성과 쿼리 특성의 내적, TFIDF 및 인위적으로 추출된 feature를 사용해야 함. 1000개의 example에 대략 10개 정도의 feature가 생김
  - 2) example이 100만개라면 정규화 및 feature selection을 사용해 문서와 쿼리의 교집함을 구함. 이를 통해 수백만 개의 feature가 나오지만 정규화를 통해 feature가 감소함. 1,000만개의 example에서 대략 10만개 정도의 feature가 생김
  - 3) example이 수십억 또는 수천억 개라면 feature selection과 정규화를 사용해 feature column을 문서 및 쿼리 토큰을 cross할 수 있음. 10억 개의 example에 1,000만개의 feature가 생김
- 마지막에는 Rule #28에 따라 사용할 feature를 결정함
Rule #22: 더 이상 사용되지 않는 feature를 정리하기
- 사용하지 않는 feature는 기술 부채가 됨
  - 더 이상 사용되지 않고 다른 feature와 결합해도 유용하지 않다면 인프라에서 삭제하자
  - 인프라를 깔끔하게 유지해야 가장 유망한 feature를 가장 빠르게 시험해볼 수 있음. feature가 다시 필요해지면 언제든지 다시 추가할 수 있음
- 추가하거나 유지할 feature를 결정할 땐 coverage를 고려하자. Feature가 얼마나 많은 example을 포괄하는지? 예를 들어 개인별 맞춤 feature가 있는데 사용자 중 이 feature를 사용하는 비율이 8%에 불과하면 높은 효율을 기대할 수 없음
- 어떤 Feature는 생각보다 큰 역할을 하기도 함. 예를 들어 데이터 중 1%만 포괄하는 feature가 있는데, 이 feature를 갖는 example 중 90%가 양성이라면 꼭 추가해야할 feature임

인간에 의한 시스템 분석

머신러닝의 세 번째 단계로 넘어가기 전에, 어떤 머신러닝 강의에서도 다뤄지지 않는 주제를 짚고 넘어가려고 함
바로 기준 모델을 어떻게 바라보고 개선할지에 관한 것
이것은 과학이라기보단 예술에 가깝지만, 바람직하지 않은 몇 가지 패턴을 피할 때 도움이 됨
Rule #23: 당신은 전형적인 최종 유저가 아니다
- 팀이 궁지에 몰리는 가장 쉬운 방법
- fishfood(팀 내에서 프로토타입 사용) 및 dogfood(회사 내에서 프로토타입 사용)에는 많은 장점이 있지만, 직원들이 성능의 정확성에 대해 잘 살펴야 함
- 단점이 분명한 변경사항을 피하는 것도 중요하지만, 프러덕션 단계가 안정적이라고 판단할 요소를 철저히 테스트하는 것이 중요함
- 크라우드소싱 플랫폼에서 일반인을 대상으로 유료 설문조사를 진행하거나 실제 사용자를 대상으로 실험하는 방법이 있음
- 이렇게 하는 이유
  - 1) 개발자는 코드부터 신경을 쓰기 마련. 특정 측면에만 주목하거나 지나치게 감정이 개입되어 확증 편향이 휩쓸릴 수 있음
  - 2) 개발자의 시간은 소중합니다. 엔지니어 9명이 1시간 동안 회의하는데 사용되는 비용과 크라우드소싱 플랫폼에서 유료 설문조사를 진행해 얻을 수 있는 라벨 수를 비교해보자
- 사용자 의견이 꼭 필요하다면, 사용자 경험 방법론(uesr experience methodologies)을 사용해보자. 프로세스 초기에 사용자 페르소나를 만들고 이후에 사용성 테스트를 진행하자
  - 사용자 페르소나는 가상적인 사용자를 의미함. 예를 들어 팀원이 모두 남성이면 35세 여성 사용자 페르소나를 만들어보자. 또한 사용성 테스트를 진행해 실제 사용자 반응을 조사하면 새로운 관점을 접할 수 있음
Rule #24: 모델 사이의 delta를 측정하자
- 유저가 새 모델을 접하기 전에 측정할 수 있는 가장 쉽고 유용한 항목으로 새로운 모델이 프러덕션의 기존 결과와 얼마나 다른지 계산하는 것을 뜻함
- 예를 들어 ranking 문제에서 동일한 쿼리 샘플을 두 모델에 실행한 후 결과의 symmetric 차이 크기에 순위별 가중치를 적용해 살펴볼 수 있음
  - 차이가 매우 작다면 별도의 실험을 거치지 않아도 변화가 거의 없을 것을 짐작할 수 있음
  - 차이가 매우 크다면 긍정적인 변화임을 확신할 수 있음
- symmetric 차가 크게 나온 쿼리를 살펴보면 변화의 본질적인 측면을 이해할 때 도움이 됨
- 그러나 중요한 것은 시스템의 안정성임. 모델 자체를 비교할 때(이상적으로 0) 대칭 차이가 낮은지 확인하자
Rule #25: 모델을 선택할 땐 예측 파워보다 실용적인 성능을 우선시하자
- 모델에서 클릭률을 예측하려고 한다. 그러나 결국 중요한 질문은 그 예측으로 무엇을 할지?임
  - 문서의 순위를 결정할 때 활용할 생각이라면 예측 자체보다 최종적인 순위의 품질이 더 중요함
  - 문서가 스팸일 확률을 예측해 차단 기중늘 정할 계획이라면 허용할 대상의 정확성이 가장 중요함
- 대부분 이런 두 관점의 조화를 이루지만, 그렇지 않다면 소탐대실의 상황이 될 수 있음
- 따라서 어떤 변화가 log loss는 개선하지만 시스템의 성능을 떨어트린다면 다른 feature를 사용해야 함. 이런 상황이 자주 나타나기 시작하면 모델의 objective를 재검토해야 함
Rule #26: 측정된 오차에서 패턴을 찾아 새 feature 만들기
- 모델에서 잘못 예측한 training example을 발견했다고 가정
  - 분류 작업의 경우 false positive나 false negative가 여기에 해당함
  - Ranking task에선 positive와 negative로 이루어진 쌍에서 positive가 negative보다 순위가 낮게 매겨진 경우일 수 있음
  - 중요한 점은 해당 예시는 머신러닝 시스템에서 예측이 잘못된 것을 스스로 알고 있으므로 기회가 있으면 수정이 가능하다는 점
  - 오류를 수정할 수 있는 feature를 모델에 제공하면 모델은 이 feature를 사용하려고 함
- 반면 시스템에서 실수를 깨닫지 못한 example을 사용한 feature는 무시됨
  - 예를 들어 Play 앱 검색에서 사용자가 무료 게임을 검색했는데 최상위 결과 중 하나에 관련성이 떨어지는 개그 앱이 포함되었음. 따라서 개그 앱에 관한 특성을 만들었음
  - 설치 횟수를 극대화하는 것이 목표인 경우 무료 게임을 검색하는 사용자들이 개그 앱을 많이 설치한다면 개그 앱 feature는 의도한 효과를 낼 수 없음
- 모델에서 잘못 예측한 example을 확보했으면 현재 feature set을 벗어나는 추세를 찾자
  - 예를 들어 시스템에서 긴 게시물의 순위를 낮추는 경향이 발견되면 게시물 길이를 추가하자. 추가할 feature를 너무 구체적으로 고민하지 말자. 단순히 10개의 feature를 추가한 후 모델이 알아서 판단하도록 놔두자(Rule 21 참조) 이 방식이 원하는 효과를 얻는 가장 쉬운 방법임
Rule #27: 부적절한 동작이 관찰되면 정량화를 시도하자
- 시스템에 바람직하지 않은 속성이 있는데 기존 loss 함수로는 포착되지 않아서 이슈가 되는 경우가 있음
- 이러한 경우 무슨 수를 써서라도 불만족스러운 포인트를 구체적인 숫자로 바꿔야함
  - 예를 들어 Play 검색에 ‘개그 앱’이 너무 많이 표시된다고 생각되면 평가 전문가에게 개그 앱을 판별하도록 의뢰할 수 있음
  - 이 경우 사람이 라벨링한 데이터를 사용해도 무리가 없음
- 이렇게 측정 가능한 문제라면 이제 feature, objective, metric으로 사용할 수 있음
- 일반적인 규칙은 우선 측정하고 최적화
Rule #28: 단기적인 동작이 같더라도 장기적인 동작은 다를 수 있음
- 모든 doc_id와 exact_query를 조사해 모든 문서, 모든 쿼리에 관한 클릭 확률을 계산하는 시스템을 새로 구축했다고 가정
- 현재 시스템보다 단순하고 AB 테스트 결과가 현재 시스템과 거의 일치하는 것으로 나타나서 출시를 결정함
- 그런데 새 앱이 표시되지 않는 문제를 발견
  - 왜 그럴까?
  - 이 시스템은 자체 기록을 기반으로 해당 쿼리에 관한 문서만을 보여주므로 새 문서를 표시해야 한다는 사실을 학습할 방법이 없음
  - 이런 시스템이 장기적으로 어떻게 작동할지 알아내는 유일한 방법은 모델이 실제로 운영될 때 획득한 데이터로만 학습하는 것인데, 이는 매우 어려운 일임

Training-Serving Skew

Training-Serving Skew란 Train 성능과 Serving 성능 간의 차이
차이가 나타나는 이유
- Train 파이프라인과 Serving 파이프라인에서 데이터를 처리하는 방법의 차이
- 학습시 데이터와 제공 시 데이터 간의 변화
- 모델과 알고리즘 간의 피드백 루프
Google의 프로덕션 머신러닝 시스템에도 Training-Serving Skew로 인해 성능이 저하된 경우가 있었음
가장 좋은 해법은 시스템과 데이터의 변화로 인해 예기치 않은 격차가 생기지 않도록 직접 모니터링하는 것
Rule #29: Training 환경을 Serving 환경과 일치시키는 최고의 방법은 Serving할 때 사용된 feature set을 저장하고 그 데이터를 기반으로 Training시 사용하는 것
- 모든 example에 대해서 불가능하다면 일부 example에 대해서라도 실천하여 서빙과 학습의 일관성을 검증할 방법을 강구해야 함(Rule #37 참조)
역자 : Serving은 보통 실시간 데이터로 적재가 되고 Training 셋은 ETL 파이프라인으로 실시간 데이터가 아닐 수 있음. 이럴 경우 Serving용 실시간 데이터를 바로 적재해 한번에 쓰자는 이야기
- Google의 여러 팀에서 이런 측정을 통해 의외의 결과를 얻은 적 있음
- YouTube 홈페이지는 Serving시 특성 로그 기록을 도입하여 품질을 크게 높이고 코드의 복잡성을 낮추었으며, 지금 이 순간에도 여러 팀에서 인프라를 전환하고 있음
Rule #30: 표본 추출된 데이터를 임의로 무시하지 말고 중요도에 따라 가중치를 매기기
- 데이터가 너무 많으면 파일 1~12만 사용하고, 나머지 파일 13~99는 무시하고 싶을 수도 있음
- 하지만 잘못된 생각
- 사용자에게 한 번도 표시되지 않은 데이터는 삭제해도 무방하지만, 나머지 데이터에는 중요도 가중치를 적용하는 것이 가장 좋음
- 중요도 가중치(importance weight)란 예시 X를 샘플링할 확률이 30%라면 10/3의 가중치를 준다는 의미
- 중요도 가중치를 사용하는 경우에도 규칙 #14에서 설명한 calibration 속성이 모두 적용됨
Rule #31: Training 및 Serving시 (DB) 테이블 데이터를 조인하는 경우 테이블 데이터는 달라질 수 있음을 명심하자
- 문서 ID를 해당 문서의 댓글수 또는 클릭수 등의 특성을 담은 테이블과 조인한다고 가정
- 학습 시점과 서빙 시점 사이에 테이블의 특성이 달라질 수 있음
역자 : 특히 시계열성 데이터에서 많이 실수함(Lag 변수)
- 이런 경우 학습과 서빙 간에 같은 문서에 관한 모델의 예측이 서로 달라짐
- 이런 문제를 피하는 가장 쉬운 방법은 서빙 시에 특성을 기록하는 것(Rule #32 참조)
- 테이블의 변화가 비교적 느리다면 1시간 또는 하루마다 테이블의 스냅샷을 만들어 적당히 근접한 데이터를 얻을 수 있음
- 그러나 문제가 완벽하게 해결되는 것은 아님
Rule #32: 가능하면 학습 파이프라인과 서빙 파이프라인 간에 코드를 재사용하자
- Batch 처리는 Online 처리와 다름
- 온라인 처리는 도착하는 각 요청을 실시간으로 처리해야 하므로 각 쿼리에 대해 별도의 조회를 수행하는 반면, 배치 처리에서는 여러 작업을 조인 등의 방법으로 결합할 수 있음
- 서빙 시에는 온라인 처리를 수행하는 반면, 학습은 일괄 처리 작업
- 그러나 코드를 재사용할 수 있는 방법이 몇 가지 있음
  - 예를 들어 모든 쿼리 또는 조인의 결과를 사람이 읽을 수 있는 방식으로 저장하면 오류를 쉽게 테스트할 수 있음
  - 그런 다음 모든 정보가 수집되었으면 서빙 또는 학습 중에 공통 메소드를 실행하여 사람이 읽을 수 있는 객체와 머신러닝 시스템에 사용되는 형식을 연결하자
  - 이렇게 하면 학습-서빙 격차가 근본적으로 방지됨
  - 이렇게 하려면 우선 학습 코드와 서빙 코드에 동일한 프로그래밍 언어를 사용해야 합니다
  - 그렇지 않으면 코드를 공유하기가 거의 불가능함
  역자 : 우버는 Spark로 Training / Serving을 모두 통합함
Rule #33: 1월 5일까지 수집된 데이터를 기준으로 모델을 생성하는 경우 1월 6일 이후의 데이터로 모델을 테스트하자
- 일반적인 규칙은 모델 학습에 사용된 데이터보다 이후에 수집된 데이터로 모델의 성능을 측정하는 것
- 이렇게 하면 시스템의 프로덕션 성능을 더 정확히 예상할 수 있음
- 1월 5일까지 수집된 데이터를 기준으로 모델을 생성하는 경우 1월 6일 이후의 데이터로 모델을 테스트하자
- 새 데이터에 관한 성능은 기존 데이터보다 다소 저하되는 것이 정상이지만 크게 나빠져서는 안됨
- 우연히 daily로 변동이 생길 수 있으므로 평균적인 클릭률 또는 전환율이 변경되지 않을 수 있지만, 양성 예시가 음성 예시보다 1점 높게 나올 가능성을 나타내는 AUC는 합리적인 유사도를 보여야 함
Rule #34: 스팸 감지, 관심 이메일 판단 등 필터링을 위한 이진 분류에서는 단기적으로 다소의 성능 저하를 감수하더라도 데이터를 철저히 정제하자
- 필터링 작업에서는 음성으로 판정된 예시를 사용자로부터 숨긴다
  - 서빙 시 음성 예시의 75%를 차단하는 필터가 있다고 가정하자
  - 사용자에게 표시된 instance로 추가적인 학습 데이터를 추출하려는 생각을 할 수 있음
  - 예를 들어 필터를 통과했지만 사용자가 스팸으로 신고한 이메일은 학습 데이터로 활용할 수 있음
- 그러나 이 방식은 샘플링 편향을 유발함
  - 더 정제된 데이터를 얻는 방법은 서빙 시 전체 트래픽 중 1%를 ‘홀드아웃’으로 라벨링하고 모든 홀드아웃 예시를 사용자에게 보내는 것
  - 이제 필터는 음성 예시 중에서 최소 74%를 차단함
  - 이러한 홀드아웃 예시는 학습 데이터가 될 수 있음
- 필터가 음성 예시의 95% 이상을 차단한다면 이 접근법은 현실성이 낮음
- 그렇더라도 서빙 성능을 측정하려는 경우 소량의 샘플(0.1% 또는 0.001%)을 추출할 수 있음
- 1만 개 정도의 예시가 있으면 성능을 비교적 정확히 추정할 수 있음
Rule #35: Ranking 문제에선 특유의 왜곡이 나타날 수 있음
- 표시되는 결과가 바뀔 정도로 ranking 알고리즘을 급격히 변경하면 알고리즘에서 이후에 접하게 될 데이터 자체가 변화함
- 이러한 유형의 왜곡이 나타날 것을 대비하여 모델을 설계해야 함
- 여기에는 여러 가지 접근법이 있으며, 공통점은 모델에서 기존에 접한 데이터를 우선시함
- 1) 쿼리 하나에만 해당하는 특성 보다 여러 쿼리를 포괄하는 특성에 더 높은 정규화를 적용
  - 이렇게 하면 모델에서 모든 쿼리로 일반화되는 특성보다 하나 또는 소수의 쿼리에 국한되는 특성이 우선시됨
  - 이 방식은 자주 나타나는 결과가 이와 무관한 쿼리에까지 영향을 주지 않도록 차단할 때 도움이 됨
  - unique 값이 많은 feature에 더 높은 정규화를 적용하라는 기존의 권장사항과는 정반대임
- 2) featue에 positive weight만 허용
  - 따라서 양호한 모든 특성이 ‘미지의’ 특성보다 우선시됨
- 3) 문서에만 국한된 feature를 배제
  - 이는 #1의 극단적인 경우
  - 예를 들어 특정 앱이 쿼리와 무관하게 많은 다운로드를 기록했더라도 무조건 항상 표시할 수는 없음
  - 문서에만 국한된 특성을 배제하면 문제가 단순해짐
  - 특정한 인기 앱을 무조건 표시하지 않으려는 이유는 모든 추천 앱을 골고루 제공하는 것이 중요하기 때문
    - 예를 들어 ‘조류 관찰 앱’을 검색한 사용자가 ‘앵그리 버드’를 다운로드할 수는 있지만 기존 의도에 분명히 어긋난 결과
  - 이러한 앱을 표시하면 다운로드율은 올라가지만 사용자의 궁극적인 요구사항이 해결되지는 않음
Rule #36: positional feature를 사용해 피드백 루프를 방지하자
- 콘텐츠의 위치는 사용자와 상호작용에 막대한 영향을 줌
- 앱을 1번 위치에 표시하면 실제로 클릭수가 올라가며, 앞으로도 그러할 것으로 확신할 수 있음
- 이 문제를 다루는 방법 중 하나는 positional feature, 즉 페이지에서 콘텐츠가 차지하는 위치에 관한 특성을 추가하는 것
  - 모델 학습에 위치 특성을 사용하면 ‘1stposition’과 같은 특성에 높은 가중치를 부여하도록 모델이 학습됨
  - 따라서 ‘1stposition=true’를 갖는 예시에서 다른 요소에 적은 가중치가 부여됨
  - Serving 시에는 후보의 점수를 매긴 후에 표시 순서를 결정하게 되므로 모든 인스턴스에 위치 특성을 지정하지 않거나 동일한 기본 특성을 지정함
- 위치 특성은 이와 같이 Training과 Testing 간에 비대칭성을 가지므로 모델의 나머지 부분과 별도로 유지하는 것이 중요함
- 모델을 positional feature의 함수와 나머지 특성의 함수를 더한 합으로 만드는 것이 가장 좋음(앙상블)
- 예를 들어 위치 특성과 문서 특성을 교차해선 안됨
Rule #37: Training/Serinvg Skew를 측정하자
- 격차가 발생할 수 있는 원인은 보통 몇 가지로 정리되며, 다음과 같이 나눌 수 있음
  - 학습 데이터와 홀드아웃 데이터의 성능 차이
    - 일반적으로 이 차이는 불가피하며 반드시 나쁜 것은 아님
  - 홀드아웃 데이터와 ‘다음날’ 데이터 간의 성능 차이
    - 이 차이도 불가피함
    - 다음날 성능을 극대화하는 방향으로 정규화를 조정해야 함
    - 홀드아웃 데이터와 다음날 데이터 간에 상당한 격차가 있다면 일부 feature에 시간 민감성이 있어 모델의 성능을 저하한다는 증거일 수 있음
  - ‘다음날’ 데이터와 실시간 데이터 간의 성능 차이
    - 학습 데이터의 example에 모델을 적용할 때와 serving시 동일한 example에 모델을 적용할 때 완전히 같은 결과가 나와야 함(Rule #5 참조)
    - 따라서 이 차이는 엔지니어링 오류를 시사할 가능성이 높음

2단계가 마무리되고 있음을 나타내는 구체적인 징후
- 가장 먼저, 월별 개선 폭이 둔화하기 시작
- 측정항목 간에 절충 관계가 나타나기 시작
  - 즉, 몇몇 실험에서 상승하는 측정항목과 하락하는 측정항목이 동시에 나타남
- 여기서부터 문제가 복잡해짐
- 개선을 이루기가 어려워졌기 때문에 머신러닝 시스템을 정교화해야 함
이 섹션에는 이전 섹션보다 다소 비현실적인 규칙이 포함될 수 있으므로 주의!
머신러닝 1단계와 2단계는 일사천리로 진행할 수 있지만 3단계부터는 스스로 길을 찾아 나가야 함
Rule #38: unaligned된 objective가 문제가 된다면 새로운 Feature에 시간 낭비하지 말자
- Metric 개선이 한계에 다다르면 현재 머신러닝 시스템의 목표에서 벗어난 문제점을 찾기 시작할 때
- 앞에서도 설명했듯, 기존의 알고리즘 목표로는 제품의 목표를 해결할 수 없다면 알고리즘 목표와 제품 목표 중 하나를 변경해야함
- 예를 들어 클릭수, +1 또는 다운로드 횟수를 최적화할 수 있지만 출시 결정을 내릴 때는 인간 평가자의 의견도 참고할 수 있음
Rule #39: 출시 결정은 제품의 장기적인 목표를 반영해야함
- 설치 횟수 예측의 logistic loss를 줄일 수 있는 아이디어를 생각했다
  - 해당 feature를 추가했더니 로지스틱 손실이 감소했다
  - 실시간 실험 결과 설치율 상승이 관찰됨
  - 그런데 출시 검토 회의에서 일일 활성 사용자 수가 5% 하락했다는 지적이 나옴
  - 따라서 모델을 출시하지 않기로 결정
- 실망스러운 결과지만 출시 결정에는 여러 가지 기준이 작용하며 ML을 통해 최적화할 수 있는 것은 그중 일부에 불과하다는 점을 알게 됨
- 현실 세상은 게임과 달라서, 제품의 상태를 일률적으로 판단할 수 있는 ‘체력 수치’ 같은 개념이 없음
  - 팀에서는 수집 가능한 통계를 총 동원하여 시스템의 미래 성능을 효과적으로 예측하기 위해 노력해야함
  - Engagement, 1일 활성 사용자(DAU), 30일 DAU, 광고주의 투자수익 등을 고려해야 함
  - 이런 metric은 AB 테스트로 측정할 수 있지만 사용자 만족도, 사용자 수 증가, 파트너 만족도, 수익 등의 더욱 장기적인 목표를 대변하는 역할을 함
  - 제품의 유용성과 품질 향상 및 5년 후의 회사 발전과 같은 목표에 대해서도 이를 대변하는 metric을 생각할 수 있음
- 출시 결정을 내리기 쉬운 유일한 경우는 모든 측정항목이 개선되거나 적어도 악화되지 않을 때
  - 팀에서 정교한 머신러닝 알고리즘과 단순한 휴리스틱 사이에서 선택할 수 있으며 단순한 휴리스틱이 모든 측정항목에서 더 나은 결과를 보인다면 휴리스틱을 선택해야함
  - 또한 가능한 모든 metric 값 사이에 명백하게 우열이 가려지지도 않음
- 구체적으로 다음과 같은 두 가지 시나리오를 살펴보자

실험	DAU	Revenue/Day
A	1 million	$4 million
B	2 million	$2 million

현재 시스템이 A라면 B로 전환할 가능성은 낮음
- 현재 시스템이 B라면 A로 전환할 가능성은 낮음
- 이러한 상황은 모순적으로 보이지만, 측정항목에 관한 예측은 적중한다는 보장이 없으므로 어떠한 변화에도 상당한 위험이 뒤따름
- 두 metric 모두 팀에서 우려하는 위험을 수반함
뿐만 아니라 어떠한 측정항목도 팀의 궁극적인 관심사인 ‘지금부터 5년 후에 제품이 어떠한 위치에 있을까?’라는 의문을 해결해 주지 못함
사람들은 자신이 직접 최적화할 수 있는 측정항목 하나를 중시하는 경향이 있음
- 대부분의 머신러닝 도구는 이러한 환경에 적합함
- 이러한 환경에서 새로운 feature를 개발하는 엔지니어가 끊임없이 계속되는 출시에 대응해야함
- 머신러닝 유형 중 이 문제를 다루기 시작하는 유형이 multi-objective learning임
  - 예를 들어 각 측정항목에 관한 하한선을 갖는 제약조건 충족 문제를 작성하고 측정항목의 특정한 선형 조합을 최적화
  - 그러나 이렇게 하더라도 모든 측정항목을 머신러닝 목표로 손쉽게 규격화할 수 있는 것은 아님
  - 문서가 클릭되거나 앱이 설치되는 이유는 콘텐츠가 표시되었기 때문
  - 그러나 사용자가 사이트를 방문한 계기를 알아내기는 훨씬 어려움
  - 사이트의 미래 실적을 전반적으로 예측하는 문제는 AI-Complete 문제로 컴퓨터 시각인식 또는 자연어 처리만큼이나 어려움
Rule #40: 앙상블을 단순하게 유지하기
- Raw feature를 사용해 컨텐츠의 순위를 바로 결정하는 통합 모델은 디버깅 및 파악이 가장 쉬운 모델임
  - 그러나 모델의 앙상블(다른 모델의 점수를 종합하여 만든 단일 ‘모델’)은 더 우수한 성능을 발휘할 수 있음
  - 단순성을 유지하려면 각 모델은 다른 모델의 입력만을 취하는 앙상블이거나 여러 특성을 취하는 기본 모델이어야 하며, 두 가지 입력을 모두 취해서는 안 됨
  - 별도로 학습되는 다른 모델을 기반으로 하는 여러 모델이 있는 경우 이러한 모델을 결합하면 부적합한 동작이 나타날 수 있음
- 앙상블에는 ‘기본’ 모델의 출력만을 입력으로 취하는 단순 모델을 사용하자
  - 그리고 앙상블 모델의 속성을 직접 규정할 필요가 있음
  - 예를 들어 기본 모델이 산출하는 점수가 상승하는 경우 앙상블의 점수가 하락해서는 안됨
  - 또한 가급적이면 입력 모델이 semantically적으로으로 해석 가능하도록 보정 등의 작업을 거쳐야함
  - 그래야 underlying(기반) 모델의 변화가 앙상블 모델에 혼선을 주지 않음
  - 또한 underlying(기반) 분류자가 예측한 확률이 상승할 때 앙상블이 예측한 확률이 하락하지 않도록 강제해야함
Rule #41: 성능 개선이 한계에 다다르면 기존 신호를 다듬기보다는 본질적으로 새로운 정보를 추가하자
- 사용자의 인구통계 정보를 추가함
  - 문서에 포함된 단어에 관한 정보도 추가함
  - 템플릿 탐색을 수행하여 정규화를 조정함
- 그런데 핵심 측정항목이 1% 이상 개선된 출시가 몇 분기 동안 단 한 번도 없었습니다. 이제 어떻게 해야 할까요?
- 이제 완전히 다른 feature를 위한 인프라 구축을 시작할 때
  - 예를 들면 사용자가 어제, 지난주, 작년에 액세스한 문서 내역, 다른 출처에서 가져온 데이터 등
  - 위키데이터 항목 또는 사내 보유 데이터(예: Google의 지식 정보)를 사용하자
  - 딥러닝을 활용하자
  - ROI를 조정하고 새로운 feature를 위한 업무량을 늘려야함
  - 다른 엔지니어링 프로젝트와 마찬가지로, 새 feature를 추가하는 데 따르는 편익과 복잡성이 올라가는 데 따르는 비용을 저울질해야함
Rule #42: Diversity, Personalization, Relevance는 polularity와 상관관계가 의외로 낮을 수 있음
- 컨텐츠 집합의 Diversity은 여러 가지 의미를 가질 수 있는데, 가장 흔한 것은 컨텐츠 출처의 다양성을 의미함
  - Personalization란 각 사용자에게 자신만의 결과를 제공하는 것
  - Relevance이란 특정 쿼리의 결과가 다른 어떠한 결과보다도 해당 쿼리에 적합하다는 의미
  - 따라서 이러한 세 가지 속성은 특별한 속성으로 규정됨
  - 그러나 평범함이 최선인 경우도 많다는 것이 문제
- 시스템에서 클릭수, 사용 시간, 시청 횟수, +1, 재공유 등을 측정한다면 결과적으로 컨텐츠의 인기도를 측정하는 것
- 어떤 팀에선 다양성을 갖춘 개인별 모델을 학습시키려고 함
  - 이를 위해 시스템의 personalize(사용자의 관심사를 나타내는 특성) 또는 diversify(이 문서가 다른 반환 문서와 저자, 콘텐츠 등의 특성을 공통적으로 갖는지를 나타내는 특성)에 기여하는 특성을 추가하지만, 가중치가 생각보다 낮거나 부호가 반대라는 사실을 알게됨
- Diversity, Personalize, Relevance가 중요하지 않다는 의미는 아님
  - 이전 규칙에서 설명했듯이 후처리를 통해 Diversity 또는 Relevance을 강화할 수 있음
  - 더 장기적인 목표가 개선되는 것으로 나타난다면 popularity와 별개로 Diversity/Relevance이 중요하다고 판단할 수 있음
  - 후처리를 계속 사용할 수도 있고, Diversity 또는 Relevance 기준으로 목표를 직접 수정할 수도 있음
Rule #43: 당신의 친구들은 다른 제품에 같은 경향이 있지만 당신의 관심사는 그렇지 않은 경향이 있음(해석이 어려워서 원문을 남깁니다 : Your friends tend to be the same across different products. Your interests tend not to be)
- Google의 여러 팀에서는 한 제품에서 관계의 긴밀함을 예측하는 모델을 취하여 다른 제품에 성공적으로 적용함으로써 큰 성과를 거둠
- 반면, 여러 제품 분야를 넘나드는 맞춤화 특성으로 인해 고생하는 팀도 있음
  - 이론적으로는 성공해야 할 것 같은데, 실제로는 잘 되지 않음
- 한 부문의 원시 데이터를 사용하여 다른 부문의 사용자 행동을 예측하는 방법은 성공을 거두기도 함
- 또한 사용자가 다른 부문에서 활동한 적이 있다는 사실만 알아도 도움이 될 수 있음
- 예를 들어 사용자가 두 제품을 사용했다는 사실 자체가 큰 의미를 가질 수 있음

Reference

Rules of Machine Learning: Best Practices for ML Engineering

카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)

PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다

이 글이 도움이 되셨거나 다양한 의견이 있다면 댓글 부탁드립니다 :)

Buy me a coffee

Rules of Machine Learning: Best Practices for ML Engineering 정리

Best Practices for ML Engineering

Terminology(용어)

Overview

1부. Before Machine Learning

2부. ML 1단계: Your First Pipeline

모니터링

첫 목표(Objective)

3부. ML 2단계: Feature Engineering

인간에 의한 시스템 분석

Training-Serving Skew

4부. ML 3단계: Slowed Growth, Optimization Refinement, and Complex Models

Reference

어쩐지 오늘은

Best Practices for ML Engineering

Terminology(용어)

Overview

1부. Before Machine Learning

2부. ML 1단계: Your First Pipeline

모니터링

첫 목표(Objective)

3부. ML 2단계: Feature Engineering

인간에 의한 시스템 분석

Training-Serving Skew

4부. ML 3단계: Slowed Growth, Optimization Refinement, and Complex Models

Reference

Share this post