상세페이지

ICT용어

데이터 랭글링,Data wrangling

  • 박서진
  • 22-10-17 14:09
  • 조회수 68

데이터 랭글링, data wrangling

동의어 : 데이터 먼징(data munging)

 

 

 

원자료(raw data)를 쉽고 효율적으로 가공하고 분석할 수 있도록 변환하는 과정.


비표준화인 데이터는 유형이 다양하고 포맷이 복잡하며 품질 수준도 다르다. 따라서 데이터를 분석하는 

 

전체 과정에서 데이터를 준비하고 가공하는 데에 가장 많은 시간이 소요된다. 

 

이러한 문제를 해결하기 위해 데이터 랭글링(data wrangling) 도구가 개발되었다.

 

데이터 랭글링으로 복잡하고 반복적인 절차를 거치지 않고 손쉽게 데이터를 준비하고 

 

가공할 수 있게 되었고 데이터 분석 시간을 크게 단축할 수 있게 되었다.


데이터 랭글링은 다음의 절차로 세분화할 수 있다.

 

- 데이터 발견(discovering): 보유한 데이터가 어떠한 정보들을 포함하고 있는지, 어떠한 내용을 분석할 것인지를 판단한다.

 

- 데이터 구조화(structuring): 다양한 크기와 형태의 원자료(raw data)들을 계산이 쉽도록 일정 규격에 맞추어 변환한다.

 

- 데이터 정제(cleansing): 데이터의 문제점을 식별하고 수정한다.

 

- 데이터 강화(enriching): 부가적인 데이터를 추가하여 데이터의 효용성을 증가한다.

 

- 데이터 유효성 검사(validating): 데이터의 일관성, 품질 등을 확인한다.

 

- 데이터 출판(publishing): 준비된 데이터를 데이터 분석 도구에 전달하고 데이터 준비 과정을 문서로 만들어 재사용할 수 있도록 저장한다.


일반적으로 데이터 랭글링은 데이터 과학자(data scientist) 또는 

 

데이터 엔지니어(data engineer)가 담당하며 데이터 랭글링을 전문적으로 수행하는 

 

사람을 데이터 랭글러(data wrangler)라 부른다. 대표적인 데이터 랭글링 공개 

 

소스 소프트웨어로는 오픈리파인(OpenRefine), 타뷸라(Tabula), 데이터랭글러(DataWrangler) 등이 있다.

 

데-1.JPG

 

데2.JPG

 

출처:TTA 정보통신 용어사전 

 

 

 

 

 

 

 

 

 

 

 

 

 

게시물 댓글 0

  • 등록된 댓글이 없습니다.

backward top home