Advanced Feature Engineering with Kaggle

Coursera 강의인 How to Win a Data Science Competition: Learn from Top Kaggler, Feature engineering part1, 2를 듣고 정리한 내용입니다

Feautre Engineering

Mean Encoding
- Categorical Feature를 기준으로 하여 Target값과 통계적인 연산을 하는 것
- Median, Mean, Std, Min, Max 등의 Feature 추가
Using target to generate features
- Moscow는 총 5개가 있고, target에 1인 값이 2개라서 0.4
- Tver는 총 5개 있고, target에 1인 값이 4개라서 0.8
왜 이게 작동하는가?
- 1) Label encoding은 순서없이 random. target에 대한 correlation이 없음
- 2) mean encoding은 0부터 1까지로 나뉘어 Target값과 직접적 연관성이 생김
- 짧은 tree여도 더 나은 loss를 얻음
사용 예시
- Tree depth를 증가시킬 때, 계속해서 점수가 증가하고 validation score도 같이 증가하면(오버피팅이 아니라는 뜻) Tree model이 분할에 대한 정보가 더 필요한 상황! 이럴 때 Mean Encoding이 사용
- - 오버피팅!
  - 우선 오버피팅을 잘 커버해야 함(정규화 필요)
  - 아래와 같은 데이터여서 오버피팅

Mean encoding 자체는 유용하지 않을 수 있음. 데이터 정규화 필요
Regularization
- Training data에서 CV loop 돌리기
- Smoothing(카테고리 수를)
- Random noise 추가
- Sorting and calculating expanding mean
CV loop
- Robust하고 직관적
- 보통 4-5fold를 진행하면 괜찮은 결과
- LOO같은 극단적 상황을 조심할 필요가 있음
  - 카테고리 수가 너무 작은 경우엔 오버피팅
Smoothing
- 하이퍼 파라미터 : 알파
  - 보통 알파는 카테고리 사이즈와 동일할 때, 신뢰할 수 있음
Noise
- 노이즈가 encoidng의 quality를 저하시킴
- 얼마나 noise를 추가해야 할까? 고민해야 해서 불안정하고 잘 사용하기 어려움
- 보통 LOO와 함께 사용됨
Expanding mean
- 보통의 Mean ecnoding은 각 category 변수에 하나의 값으로 나오지만, expanding mean은 uniform하지 않음
- leak이 적고 catboost에서 많은 성능 향상을 가져옴

Regression and multiclass
- Regession엔 median, percentiles, std, distribution bins 등을 추가 (통계적 정보)
- multiclass엔 클래스만큼 다른 encoding. 각 클래스 encoding마다 다른 정보를 제공해 좋은 결과를 예상
Many-tomany relations
- cross product
- 아래의 예는 APP_id로 나눔
Time series
- Limitation
- Complicated features
- Rolling
Interactions and numerical features
- Tree의 상호 작용을 분석
- Tree Model이 Split할 때 feature1과 feature2 처럼되면 서로 상호작용하! 이런 분할이 많을수록 Mean Encoding시 좋음
- Feature끼리 합하여 Target Mean Encoding 수행

1개의 feature를 group by 해서 다양한 통계값을 계산
More features
- How many pages user visited
- Standard deviation of prices
- Most visited page
- Many more..
Neighbors
- Explicit group is not needed
- More flexible
- 구현하기 힘듬
- 집의 개수, 평당 평균 가격, 학교/슈퍼/주차장의 개수, 가까운 지하철 역과 거리

카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)

PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다

이 글이 도움이 되셨거나 다양한 의견이 있다면 댓글 부탁드립니다 :)