Google Cloud Next 19 정리 및 후기


  • Cloud Next 19의 영상들을 보고 정리한 글입니다
    • 다음엔 저도 현장에 가서 이런 내용들을 듣고 싶네요!(잘 정리하고 전파할 수 있는데..!)
  • 정리한 영상
    • ML Ops Best Practices on Google Cloud
    • Accelerating Machine Learning App Development with Kubeflow Pipelines
    • What’s New with BigQuery ML and Using it to Assess Data Quality
    • Data Processing in Google Cloud: Hadoop, Spark, and Dataflow
    • Rethinking Business: Data Analytics With Google Cloud
    • AI Hub: The One Place for Everything AI

메모

  • 영상 볼 수 있는 곳
  • Google Cloud 블로그 글
  • 이상훈님의 2일차 정리글
  • 총평
    • 우선 구글 클라우드의 데이터 처리 도구들(Pub/Sub, Dataflow, Dataproc, BigQuery)는 정말 강력하고 더 쉽게 사용할 수 있게 됨
      • 진입 장벽이 낮아지는 중
      • 미래엔 데이터 엔지니어링 스킬이 기본적으로 있는 머신러닝 엔지니어들도 많이 나올 것 같음
    • AI Platform, Kubeflow, TFX, TFDV, TFMA 등을 보면 MLOps도 활발하게 진행되고 있는 듯?
      • Kubeflow 정복할 예정! 이걸 위해 쿠버네티스 공부중..
      • Tensorflow보다 PyTorch가 상승하는 것 같지만 프러덕션에선 대부분 Tensorflow를 써야할 듯
        • 지향점이 다른 느낌
        • 그냥 토치 텐서 다 상관없이 해야할 듯?
    • 회사에서 BigQuery쪽은 적극적으로 사용하고 있기 때문에 최신 기능을 모두 팔로업하고 있는데, 다른 도구들도 조금씩 테스트해보고 좋은 것은 바로 사용해볼 예정!
    • 서울 리전!

ML Ops Best Practices on Google Cloud

  • https://www.youtube.com/watch?v=20h_RTHEtZI
  • MLOps Challenges
  • Data Validation
  • Model Analyze
    • TFMA
    • Model 정확도가 시간이 지나며 점점 낮아지고 지속적 모니터링이 불가능한 상황이 자주 오는데, 이럴 때 사용하면 좋음
    • trip_start_hour가 특정 값일때 정확도를 알려줌 - 예시 : 현재 모델이 주간엔 정확도가 높고 야간엔 낮다 이런 결론이 나올 수 있음
  • Kubeflow
    • Kubernetes-native OSS Platform to Develop, Deploy and Manage Scalable and End-to-End ML Workloads
  • Cloud AI Platform
    • A code-based intergrated development environment for data science and machine learning inside the GCP console
  • 아키텍쳐

Accelerating Machine Learning App Development with Kubeflow Pipelines

  • https://www.youtube.com/watch?v=TZ1lGrJLEZ0
  • Hidden Technical Debt in ML Systems를 보면 모델링이 차지하는 부분은 매우 작음
  • Kubeflow
    • A Kubernetes-native open source platform to develop, deploy and manage, scalable ML Workloads
  • ML Workflow Orchestration
    • 코드 예제
  • Share, Re-use & Compose
    • zip 파일로 올림(람다에서도 이렇게 진행)
    • AI Hub도 사용 가능
    • 코드 예제
  • Rapid Reliable Experimentation
      • MlFlow랑 비교해서 어떤 우위가 있는지 궁금
  • GOJEK
    • 싱가포르, 인도네시아, 베트남, 태국에서 교통, 물류 등의 서비스를 하고 있는 기업
    • Airflow를 사용했는데, 아래 이유로 Kubeflow 도입
      • 실험하기 어려움
      • 엔지니어링 무거움
      • Low traceability and reproducibility
    • Data pipeline은 Airflow를 쓰고, ML pipeline은 Kubeflow 사용
      • roc 커브도 그려줌
    • TFX Taxi 예제
      • TFMA를 Static HTML로 생성해줌

What’s New with BigQuery ML and Using it to Assess Data Quality

  • https://www.youtube.com/watch?v=DnlG4frLKmw
  • BigQuery ML의 새로운 기능에 대해 말해줌
  • New BigQuery UI
    • 현기증 납니다.. 빨리 나와주세요
  • Matrix Factorization
  • NCAA 농구 3점슛 예측
  • TensorFlow
  • Feautre pre-processing function
    • BUCKETIZE, POLYNOMIAL_EXPAND, FEATURE_CROSS 등
  • 시연
    • QueryItSmart Github 참고
    • BigQuery + Cloud ML engine을 사용한 웹 데모
  • K means clustering
  • Booking.com의 시연
    • 빅쿼리로 kmenas 진행(클러스터 개수 21개)한 후 데이터 스튜디오로 시각화

Data Processing in Google Cloud: Hadoop, Spark, and Dataflow

  • https://www.youtube.com/watch?v=GRP-cGbJSCs
  • 이미 많이 알던 내용들인데, 새롭게 알게된 내용 위주로 캡쳐
  • Dataflow
    • 1년 사이에 템플릿이 정말 많아짐
  • Dataproc
    • Web interface에서 제플린 선택 가능

Rethinking Business: Data Analytics With Google Cloud

  • https://www.youtube.com/watch?v=DpngHc31a5Y
  • Platform
  • Data Funsion
  • BigQuery flat-rate with Reservations
    • 예약제 요금제?
  • BigQuery Storage API
  • BI Engine
    • 시각화하는 도구 같은데, Tableau를 대체할 수 있을지 궁금
  • Dataproc and Composer
    • Composer는 Managed Airflow인데, 사용하다보면 약간 불편한 점도 있긴함
  • Stream 데이터 처리하는 파이프라인
  • Dataflow SQL
    • 빅쿼리 콘솔에서 Dataflow Engine으로 설정한 후, 아래 쿼리 날림
    • TUMBLE_START는 처음 보는데 신기..
    • 쿼리 날리면 내부적으로 Beam이 데이터 읽고 전처리하는듯
      SELECT sr.sales_region, TUMBLE_START("INTERVAL 5 SECOND") AS period_start, SUM(tr.payload.amount) as amount
      FROM `pubsub.dataflow-sql.transactions` as tr
          INNER JOIN `bigquery.dataflow-sql.opsdb.us_state_salesregions` AS sr
          ON tr.payload.state = sr.state_code
      GROUP BY sr.sales_region, TUMBLE(tr.event_timestamp, "INTERVAL 5 SECOND")
    
    • pubsub 토픽을 바로 넣어서 쓰는듯..?
  • Data Catalog

AI Hub: The One Place for Everything AI


카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)

PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다

이 글이 도움이 되셨거나 다양한 의견이 있다면 댓글 부탁드립니다 :)

Buy me a coffeeBuy me a coffee





© 2017. by Seongyun Byeon

Powered by zzsza