빅데이터 생태계(Bigdata Ecosystem) - 벤더 및 아파치 재단
in Data on Engineering
빅데이터 생태계에 대한 포스팅입니다. 빅데이터 벤더들, 오픈소스, 아파치 재단 및 아파치 프로젝트에 대한 내용입니다!
빅데이터 벤더
- 기존 데이터베이스, 데이터웨어하우스, 컨설팅 등으로 돈을 버는 회사가 존재
- Oracle, Teradata, Splunk 등
- 고성능 DB, 머신을 비싸게 판매
- 컨설팅이 주요 상품
- 빅데이터 시대가 되며 변함
- Hadoop을 필두로 오픈소스 제품들이 시장을 점유
- Cloudera (2008)
- Hadoop 배포판 CDH를 배포
- Enterprise Hadoop
- Hortonworks (2011)
- Cloudera와 유사한 비즈니스
- MapR (2009)
- Cloudera와 유사한 비즈니스
- 기업용 배포판에 초점 (비싸지만 안정성, 성능 위주)
- 빅데이터 벤더들의 기술력이 뛰어나기 때문에 배포판을 선택하는 것도 좋은 선택!
오픈소스
- 소스코드가 공개된 소프트웨어
- 반드시 무료는 아님. 가끔 유료도 있음
- 사용하는 이유
- 개발자가 원하는대로 기능을 변경 가능
- 소스코드를 통해 학습
- 코드를 확인 가능해서 보안 측면에서 유리
- 회사에 종속되지 않기에 안정적
- 대표적 오픈소스 프로젝트
- 리눅스, 아파치 웹서버, 하둡
아파치 재단
- Apache 프로젝트들을 지원하기 위해 설립된 비영리 재단
- 돈을 지원하진 않고 Jira 등 인프라/프로젝트 방향성 멘토링
- 2600명 이상의 자원봉사자
- 350개 이상의 프로젝트를 지원
- 프로젝트로 신청하는 방식
- 프로젝트 퀄리티, 커뮤니티 활성화 등을 고려
- Incubating 프로젝트(1~2년) -> Top Level Project
- 프로젝트 커뮤니티
- 개발자 커뮤니티
- 사용자 커뮤니티
- 커미터
- 프로젝트 커미티 (의회)
- 프로젝트 커미티 의장 (PMC)
- 프로젝트 진행상태, 커뮤니티 상태에 대한 레포트 발간
- 문제가 생겼을 시 중재
아파치 정신
- 커뮤니티
- 코드보다 커뮤니티
- 협업, 토론, 의견수렴
- 다양성 있는 커뮤니티가 바람직
- 커미터
- 프로젝트에 기여할 능력이 있고 실제로 기여한 사람들
- 개방성
- 실용주의
- 아파치 라이센스, MIT 라이센스는 그냥 사용하고 이 프로젝트를 사용했다고 적어두면 됨
- 기부
카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)
PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다
이 글이 도움이 되셨거나 다양한 의견이 있다면 댓글 부탁드립니다 :)