대용량 데이터 처리 기술(GFS, HDFS, MapReduce, Spark)

  • 빅데이터 : 기존 데이터베이스 관리도구의 능력을 넘어서는 대량정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술(by 위키피디아)
  • 기존에 데이터가 커졌을 때 사용하던 방식
    • 큐잉
    • 샤딩 : 데이터의 키를 Hash해서 여러 DB로 분산
    • but 시스템의 복잡도가 증가되며 유지보수 힘듬
    • 이를 극복하기 위해 스스로 데이터를 분산시키고 오류가 발생하면 데이터를 복구하는 기능을 가진 시스템이 생김

Continue reading

Apache Airflow - Workflow 관리 도구(1)

오늘은 Workflow Management Tool인 Apache Airflow 관련 포스팅을 하려고 합니다.
일반적으로 데이터 ETL(Extract, Transform, Load) 과정을 통해 머신러닝 모델을 위한 Dataset을 만들곤 합니다. 또한 다양한 데이터베이스를 사용할 경우 한곳으로 모아서 작업을 해야하는 경우가 있습니다. 위와 같은 경우 여러개의 Sequential한 로직(앞의 output이 뒤의 input이 되는)이 존재하는데 이런 로직들을 한번에 관리할 필요가 있습니다!

Continue reading

Pagination


© 2017. by Seongyun Byeon

Powered by zzsza