Google Cloud Next 19 정리 및 후기
in Google Cloud Platform on Basic
- Cloud Next 19의 영상들을 보고 정리한 글입니다
- 다음엔 저도 현장에 가서 이런 내용들을 듣고 싶네요!(잘 정리하고 전파할 수 있는데..!)
- 정리한 영상
- ML Ops Best Practices on Google Cloud
- Accelerating Machine Learning App Development with Kubeflow Pipelines
- What’s New with BigQuery ML and Using it to Assess Data Quality
- Data Processing in Google Cloud: Hadoop, Spark, and Dataflow
- Rethinking Business: Data Analytics With Google Cloud
- AI Hub: The One Place for Everything AI
메모
- 영상 볼 수 있는 곳
- https://cloud.withgoogle.com/next/sf/next-onair
- 다양한 분야 중 Analyze & Learn archive를 중점적으로 봄
- Google Cloud 블로그 글
- All 29 AI announcements from Google Next ‘19: the smartest laundry list : AI/인공지능 기술에 대한 총 정리 글
- News to build on: 122+ announcements from Google Cloud Next ‘19 : Cloud Next 19에서 나온 모든 새로운 것 정리
- Cloud Next 1일차 정리
- Cloud Next 2일차 정리
- Cloud Next 3일차 정리
- 이상훈님의 2일차 정리글
- 총평
- 우선 구글 클라우드의 데이터 처리 도구들(Pub/Sub, Dataflow, Dataproc, BigQuery)는 정말 강력하고 더 쉽게 사용할 수 있게 됨
- 진입 장벽이 낮아지는 중
- 미래엔 데이터 엔지니어링 스킬이 기본적으로 있는 머신러닝 엔지니어들도 많이 나올 것 같음
- AI Platform, Kubeflow, TFX, TFDV, TFMA 등을 보면 MLOps도 활발하게 진행되고 있는 듯?
- Kubeflow 정복할 예정! 이걸 위해 쿠버네티스 공부중..
- Tensorflow보다 PyTorch가 상승하는 것 같지만 프러덕션에선 대부분 Tensorflow를 써야할 듯
- 지향점이 다른 느낌
- 그냥 토치 텐서 다 상관없이 해야할 듯?
- 회사에서 BigQuery쪽은 적극적으로 사용하고 있기 때문에 최신 기능을 모두 팔로업하고 있는데, 다른 도구들도 조금씩 테스트해보고 좋은 것은 바로 사용해볼 예정!
- 서울 리전!
- 우선 구글 클라우드의 데이터 처리 도구들(Pub/Sub, Dataflow, Dataproc, BigQuery)는 정말 강력하고 더 쉽게 사용할 수 있게 됨
ML Ops Best Practices on Google Cloud
- https://www.youtube.com/watch?v=20h_RTHEtZI
- MLOps Challenges
- Data Validation
- Model Analyze
- TFMA
- Model 정확도가 시간이 지나며 점점 낮아지고 지속적 모니터링이 불가능한 상황이 자주 오는데, 이럴 때 사용하면 좋음
- trip_start_hour가 특정 값일때 정확도를 알려줌 - 예시 : 현재 모델이 주간엔 정확도가 높고 야간엔 낮다 이런 결론이 나올 수 있음
- Kubeflow
- Kubernetes-native OSS Platform to Develop, Deploy and Manage Scalable and End-to-End ML Workloads
- Cloud AI Platform
- A code-based intergrated development environment for data science and machine learning inside the GCP console
- 아키텍쳐
Accelerating Machine Learning App Development with Kubeflow Pipelines
- https://www.youtube.com/watch?v=TZ1lGrJLEZ0
- Hidden Technical Debt in ML Systems를 보면 모델링이 차지하는 부분은 매우 작음
- Kubeflow
- A Kubernetes-native open source platform to develop, deploy and manage, scalable ML Workloads
- ML Workflow Orchestration
- 코드 예제
- 코드 예제
- Share, Re-use & Compose
- zip 파일로 올림(람다에서도 이렇게 진행)
- AI Hub도 사용 가능
- 코드 예제
- Rapid Reliable Experimentation
- MlFlow랑 비교해서 어떤 우위가 있는지 궁금
- GOJEK
- 싱가포르, 인도네시아, 베트남, 태국에서 교통, 물류 등의 서비스를 하고 있는 기업
- Airflow를 사용했는데, 아래 이유로 Kubeflow 도입
- 실험하기 어려움
- 엔지니어링 무거움
- Low traceability and reproducibility
- Data pipeline은 Airflow를 쓰고, ML pipeline은 Kubeflow 사용
- roc 커브도 그려줌
- TFX Taxi 예제
- TFMA를 Static HTML로 생성해줌
What’s New with BigQuery ML and Using it to Assess Data Quality
- https://www.youtube.com/watch?v=DnlG4frLKmw
- BigQuery ML의 새로운 기능에 대해 말해줌
- New BigQuery UI
- 현기증 납니다.. 빨리 나와주세요
- Matrix Factorization
- NCAA 농구 3점슛 예측
- TensorFlow
- Feautre pre-processing function
- BUCKETIZE, POLYNOMIAL_EXPAND, FEATURE_CROSS 등
- 시연
- QueryItSmart Github 참고
- BigQuery + Cloud ML engine을 사용한 웹 데모
- K means clustering
- Booking.com의 시연
- 빅쿼리로 kmenas 진행(클러스터 개수 21개)한 후 데이터 스튜디오로 시각화
Data Processing in Google Cloud: Hadoop, Spark, and Dataflow
- https://www.youtube.com/watch?v=GRP-cGbJSCs
- 이미 많이 알던 내용들인데, 새롭게 알게된 내용 위주로 캡쳐
- Dataflow
- 1년 사이에 템플릿이 정말 많아짐
- Dataproc
- Web interface에서 제플린 선택 가능
Rethinking Business: Data Analytics With Google Cloud
- https://www.youtube.com/watch?v=DpngHc31a5Y
- Platform
- Data Funsion
- Google Data Fusion
- 코드 없이 파이프라인 생성
- BigQuery flat-rate with Reservations
- 예약제 요금제?
- BigQuery Storage API
- BI Engine
- 시각화하는 도구 같은데, Tableau를 대체할 수 있을지 궁금
- Dataproc and Composer
- Composer는 Managed Airflow인데, 사용하다보면 약간 불편한 점도 있긴함
- Stream 데이터 처리하는 파이프라인
- Dataflow SQL
- 빅쿼리 콘솔에서 Dataflow Engine으로 설정한 후, 아래 쿼리 날림
- TUMBLE_START는 처음 보는데 신기..
- 쿼리 날리면 내부적으로 Beam이 데이터 읽고 전처리하는듯
SELECT sr.sales_region, TUMBLE_START("INTERVAL 5 SECOND") AS period_start, SUM(tr.payload.amount) as amount FROM `pubsub.dataflow-sql.transactions` as tr INNER JOIN `bigquery.dataflow-sql.opsdb.us_state_salesregions` AS sr ON tr.payload.state = sr.state_code GROUP BY sr.sales_region, TUMBLE(tr.event_timestamp, "INTERVAL 5 SECOND")
- pubsub 토픽을 바로 넣어서 쓰는듯..?
- Data Catalog
AI Hub: The One Place for Everything AI
- https://www.youtube.com/watch?v=QMTT2ngnj9Q
- Google AI Hub
- AI Hub에 대한 설명, 다른 세션과 겹치는 부분이 있는 느낌
- Kubeflow, TFX에 대해 이야기함
카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)
PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다
이 글이 도움이 되셨거나 다양한 의견이 있다면 댓글 부탁드립니다 :)