상세페이지

ICT용어

데이터 호수,Data lake

  • 박서진
  • 22-05-04 14:27
  • 조회수 43

데이터 호수, -湖水, data lake

동의어 : 원데이터 공유저장소

 

 

 

다양한 환경에서 수집한 모든 데이터를 가공되지 않은 

 

원래의 형태로 저장하여 공유하는 공통 데이터 저장소.


조직이 커지면, 조직 내의 데이터가 개별 부서(부문) 내에서만 저장 및 활용되고 

 

다른 부서(부문)는 접근할 수 없는 데이터 사일로(data silo) 현상이 발생하기 쉽다. 

 

이를 해결하기 위해서 조직에서 수집한 모든 정형, 비정형 데이터를 가공되지 않은 원래의 

 

데이터 형태로 하나의 저장소에 모아두는 것이 유용하며, 

 

이를 마치 조직 내의 모든 데이터가 흘러들어 모이는 호수와 같다는 관점에서 데이터 호수라 한다.

 

데이터 호수는 2010년에 펜타호(Pentaho)의 CTO인 제임스 딕슨(James Dixon)이 소개한 개념이다. 

 

특정 스키마를 기준으로 데이터를 정제하여 저장하고 활용하는 데이터 창고(DW: Data Warehouse)와 

 

달리 데이터 호수는 데이터를 저장할 때는 가공되지 않은 원래의 형태로 저장하고, 

 

활용할 때는 데이터 스키마를 정의하여 필요한 형태로 변환하여 사용한다.


데이터 창고는 저장 시에 스키마를 충족해야 해서 데이터를 정제하는 시간이 오래 걸리고 비용이 많이 든다. 

 

따라서 빠른 데이터 수집에 어려움이 있다. 이에 비해 데이터 호수는 일단 저장하고, 

 

그 후에 데이터 활용을 고민하기 때문에 대용량 실시간 데이터를 빠르게 저장하는 데 유리하다. 

 

시스템 비용면에서도 전용 시스템을 요구하는 데이터 창고에 비해 범용 장비로 구축이 가능한 데이터 호수가 구축 비용이 저렴한 편이다.

 

그러나 데이터 관리와 거버넌스가 명확한 데이터 창고보다 데이터 호수는 데이터 관리가 어렵고, 

 

지속적인 유지 관리를 하지 않으면 쓸모없는 데이터가 많아지게 된다. 

 

이렇게 망가진 데이터 호수를 데이터 늪(data swamp)이라고 한다.


※ 참고: 한국 정부는 데이터 호수의 개념을 확장하여 공공과 민간의 네트워크를 통해서 생성되는 

 

데이터들을 모으고, 그것을 표준화하고 가공·활용하여 더 똑똑한 인공지능을 만들어서 

 

기존 산업에 혁신을 주고 혁신적인 서비스를 개발하여 일자리 창출을 목표로 하는 ‘데이터 댐’ 용어를 사용한다.

 

데이터호수.JPG

출처:TTA 정보통신 용어사전 

 

 

 

 

 

 

 


게시물 댓글 0

  • 등록된 댓글이 없습니다.

backward top home