상세페이지

ICT용어

데이터 파이프라인,Date pipeline

  • 박서진
  • 22-05-04 14:24
  • 조회수 75

데이터 파이프라인, data pipeline

동의어 : 데이터 흐름관

 

 

 

데이터 생애주기에 따라 데이터의 생성부터 사용까지 데이터 흐름을 

 

원활히 전달하도록 지원해주는 일련의 시스템.


데이터가 실제로 사용되기 위해서는 데이터가 생성되면서부터 사용되기까지 

 

데이터 생애주기에 따라 적절한 수집, 변환, 저장, 정제, 분석, 시각화 과정이 필요하다. 

 

이러한 과정을 연속적으로 연결하여 조직 내에서 데이터가 원활히 

 

유통될 수 있도록 구성한 일련의 시스템을 데이터 파이프라인이라고 한다.

 

데이터 파이프라인에서는 개별 과정에서 하는 수동 작업을 최소화하고, 

 

조직 내에서 데이터가 물 흐르듯이 자연스럽게 흘러갈 수 있도록 시스템을 구축하는 것이 중요하다.

 

데이터 파이프라인은 단순히 데이터가 흘러가는 통로만은 아니다. 

 

데이터 파이프라인의 각 과정을 거치면서 데이터는 조직 내에서 활용될 수 있게 변환되고 저장되며 용도에 맞게 처리된다.


데이터 파이프라인을 구성하는 일반적인 과정은 다음과 같다.

 

각 과정은 반드시 순차적으로 이루어지는 것은 아니며 상황에 따라 일부 과정은 생략되거나 변경 또는 혼용되어 사용될 수 있다.

 

- 데이터 수집(data collection): 생체 데이터나 사물 인터넷(IoT), 혹은 기존 데이터베이스와 같은 데이터 생성 지점에서 데이터를 수집한다.

 

- 데이터 변환(data transformation): 원천 데이터를 저장하기에 적절한 형태로 변환한다.

 

- 데이터 저장(data storage): 데이터 창고(data warehouse)나 데이터 호수(data lake)에 데이터를 저장한다.

 

- 데이터 정제(data cleansing): 저장된 데이터를 분석에 적합하도록 결측치 처리 등의 데이터 정제를 한다.

 

- 데이터 분석(data analysis): 통계적인 방법이나 데이터 마이닝 기법을 이용한 전통적인 

 

데이터 분석이나 기계학습(ML)과 인공지능(AI) 기법을 이용한 분석을 한다. 

 

심층 기계학습(deep learning)의 도입으로 인공지능 분석 기법의 적용 범위는 계속 커지고 있다.

 

- 데이터 시각화(data visualization): 분석에 필요한 시각화 데이터를 만들거나, 사용자에게 분석 결과를 보여준다.

 

데이터.JPG

출처:TTA 정보통신 용어사전 

 

 

 

 

 

 

 

 

 

 


게시물 댓글 0

  • 등록된 댓글이 없습니다.

backward top home