Google Cloud Next 19 정리 및 후기
in Google Cloud Platform on Basic
- Cloud Next 19의 영상들을 보고 정리한 글입니다
- 다음엔 저도 현장에 가서 이런 내용들을 듣고 싶네요!(잘 정리하고 전파할 수 있는데..!)
- 정리한 영상
- ML Ops Best Practices on Google Cloud
- Accelerating Machine Learning App Development with Kubeflow Pipelines
- What’s New with BigQuery ML and Using it to Assess Data Quality
- Data Processing in Google Cloud: Hadoop, Spark, and Dataflow
- Rethinking Business: Data Analytics With Google Cloud
- AI Hub: The One Place for Everything AI
메모
- 영상 볼 수 있는 곳
- https://cloud.withgoogle.com/next/sf/next-onair
- 다양한 분야 중 Analyze & Learn archive를 중점적으로 봄
- Google Cloud 블로그 글
- All 29 AI announcements from Google Next ‘19: the smartest laundry list : AI/인공지능 기술에 대한 총 정리 글
- News to build on: 122+ announcements from Google Cloud Next ‘19 : Cloud Next 19에서 나온 모든 새로운 것 정리
- Cloud Next 1일차 정리
- Cloud Next 2일차 정리
- Cloud Next 3일차 정리
- 이상훈님의 2일차 정리글
- 총평
- 우선 구글 클라우드의 데이터 처리 도구들(Pub/Sub, Dataflow, Dataproc, BigQuery)는 정말 강력하고 더 쉽게 사용할 수 있게 됨
- 진입 장벽이 낮아지는 중
- 미래엔 데이터 엔지니어링 스킬이 기본적으로 있는 머신러닝 엔지니어들도 많이 나올 것 같음
- AI Platform, Kubeflow, TFX, TFDV, TFMA 등을 보면 MLOps도 활발하게 진행되고 있는 듯?
- Kubeflow 정복할 예정! 이걸 위해 쿠버네티스 공부중..
- Tensorflow보다 PyTorch가 상승하는 것 같지만 프러덕션에선 대부분 Tensorflow를 써야할 듯
- 지향점이 다른 느낌
- 그냥 토치 텐서 다 상관없이 해야할 듯?
- 회사에서 BigQuery쪽은 적극적으로 사용하고 있기 때문에 최신 기능을 모두 팔로업하고 있는데, 다른 도구들도 조금씩 테스트해보고 좋은 것은 바로 사용해볼 예정!
- 서울 리전!
- 우선 구글 클라우드의 데이터 처리 도구들(Pub/Sub, Dataflow, Dataproc, BigQuery)는 정말 강력하고 더 쉽게 사용할 수 있게 됨
ML Ops Best Practices on Google Cloud
- https://www.youtube.com/watch?v=20h_RTHEtZI
- MLOps Challenges
- Data Validation
- Model Analyze
- TFMA
- Model 정확도가 시간이 지나며 점점 낮아지고 지속적 모니터링이 불가능한 상황이 자주 오는데, 이럴 때 사용하면 좋음
- trip_start_hour가 특정 값일때 정확도를 알려줌 - 예시 : 현재 모델이 주간엔 정확도가 높고 야간엔 낮다 이런 결론이 나올 수 있음
- Kubeflow
- Kubernetes-native OSS Platform to Develop, Deploy and Manage Scalable and End-to-End ML Workloads
- Cloud AI Platform
- A code-based intergrated development environment for data science and machine learning inside the GCP console
- 아키텍쳐
Accelerating Machine Learning App Development with Kubeflow Pipelines
- https://www.youtube.com/watch?v=TZ1lGrJLEZ0
- Hidden Technical Debt in ML Systems를 보면 모델링이 차지하는 부분은 매우 작음
- Kubeflow
- A Kubernetes-native open source platform to develop, deploy and manage, scalable ML Workloads
- ML Workflow Orchestration
- 코드 예제
- Share, Re-use & Compose
- zip 파일로 올림(람다에서도 이렇게 진행)
- AI Hub도 사용 가능
- 코드 예제
- Rapid Reliable Experimentation
- MlFlow랑 비교해서 어떤 우위가 있는지 궁금
- GOJEK
- 싱가포르, 인도네시아, 베트남, 태국에서 교통, 물류 등의 서비스를 하고 있는 기업
- Airflow를 사용했는데, 아래 이유로 Kubeflow 도입
- 실험하기 어려움
- 엔지니어링 무거움
- Low traceability and reproducibility
- Data pipeline은 Airflow를 쓰고, ML pipeline은 Kubeflow 사용
- roc 커브도 그려줌
- TFX Taxi 예제
- TFMA를 Static HTML로 생성해줌
What’s New with BigQuery ML and Using it to Assess Data Quality
- https://www.youtube.com/watch?v=DnlG4frLKmw
- BigQuery ML의 새로운 기능에 대해 말해줌
- New BigQuery UI
- 현기증 납니다.. 빨리 나와주세요
- Matrix Factorization
- NCAA 농구 3점슛 예측
- TensorFlow
- Feautre pre-processing function
- BUCKETIZE, POLYNOMIAL_EXPAND, FEATURE_CROSS 등
- 시연
- QueryItSmart Github 참고
- BigQuery + Cloud ML engine을 사용한 웹 데모
- K means clustering
- Booking.com의 시연
- 빅쿼리로 kmenas 진행(클러스터 개수 21개)한 후 데이터 스튜디오로 시각화
Data Processing in Google Cloud: Hadoop, Spark, and Dataflow
- https://www.youtube.com/watch?v=GRP-cGbJSCs
- 이미 많이 알던 내용들인데, 새롭게 알게된 내용 위주로 캡쳐
- Dataflow
- 1년 사이에 템플릿이 정말 많아짐
- Dataproc
- Web interface에서 제플린 선택 가능
Rethinking Business: Data Analytics With Google Cloud
- https://www.youtube.com/watch?v=DpngHc31a5Y
- Platform
- Data Funsion
- Google Data Fusion
- 코드 없이 파이프라인 생성
- BigQuery flat-rate with Reservations
- 예약제 요금제?
- BigQuery Storage API
- BI Engine
- 시각화하는 도구 같은데, Tableau를 대체할 수 있을지 궁금
- Dataproc and Composer
- Composer는 Managed Airflow인데, 사용하다보면 약간 불편한 점도 있긴함
- Stream 데이터 처리하는 파이프라인
- Dataflow SQL
- 빅쿼리 콘솔에서 Dataflow Engine으로 설정한 후, 아래 쿼리 날림
- TUMBLE_START는 처음 보는데 신기..
- 쿼리 날리면 내부적으로 Beam이 데이터 읽고 전처리하는듯
SELECT sr.sales_region, TUMBLE_START("INTERVAL 5 SECOND") AS period_start, SUM(tr.payload.amount) as amount FROM `pubsub.dataflow-sql.transactions` as tr INNER JOIN `bigquery.dataflow-sql.opsdb.us_state_salesregions` AS sr ON tr.payload.state = sr.state_code GROUP BY sr.sales_region, TUMBLE(tr.event_timestamp, "INTERVAL 5 SECOND")
- pubsub 토픽을 바로 넣어서 쓰는듯..?
- Data Catalog
AI Hub: The One Place for Everything AI
- https://www.youtube.com/watch?v=QMTT2ngnj9Q
- Google AI Hub
- AI Hub에 대한 설명, 다른 세션과 겹치는 부분이 있는 느낌
- Kubeflow, TFX에 대해 이야기함
카일스쿨 유튜브 채널을 만들었습니다. 데이터 분석, 커리어에 대한 내용을 공유드릴 예정입니다.
PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다
이 글이 도움이 되셨거나 의견이 있으시면 댓글 남겨주셔요.