ICT용어

오픈리파인,OpenRefine

  • 작성자 : 박서진
  • 작성일 : 22-10-17 14:13
  • 조회수 : 96

오픈리파인, OpenRefine

 

 

대규모 데이터를 정제하고 다른 포맷으로 변환하는 데 특화된 공개 소스(open source) 소프트웨어.


대부분의 데이터는 전처리(preprocessing) 과정을 거쳐야 분석이나 시각화(visualization)에 활용할 수 있다. 

 

오픈리파인(OpenRefine)은 전처리를 하기 위한 데이터 랭글링(data wrangling) 

 

소프트웨어로 2010년 5월에 메타웹(Metaweb)사에서 개발한 프리베이스

 

 그리드웍스(Freebase Gridworks) 솔루션을 기초로 한다. 프리베이스 그리드웍스는 

 

2010년 7월에 구글이 메타웹을 인수하면서 사유 소프트웨어(proprietary software)로 바뀌었고 

 

구글 리파인(Google Refine)으로 명칭을 변경하였다. 그러나 2012년에 구글이 

 

구글 리파인 서비스를 중단하면서 다시 공개 소스로 공개되었고 이름을 오픈리파인(OpenRefine)으로 변경하였다. 

 

이후 자발적으로 참여한 개발자들이 정기적으로 업데이트하고 있다.


오픈리파인은 텍스트와 숫자 데이터를 보는 용도로 쓰는 스프레드시트(spreadsheet)의 강화 버전이라 할 수 있다. 

 

엑셀과 마찬가지로 CSV 형식(Comma Separated Values) 파일을 포함한 여러 가지 형식으로 데이터를 입출력할 수 있고, 

 

외부 웹서비스에서 데이터를 가져와 통합하고 일치시키는 데에도 사용되며, 

 

데이터의 전반적인 경향성을 보고자 할 때 편리하다. 또한 수행한 모든 작업을 워크플로우(workflow) 

 

기능으로 ‘실행 취소(undo)’와 ‘다시 실행(redo)’으로 언제든지 작업을 되돌리거나 명령 내용을 저장하고 다시 실행할 수 있어 사용이 편리하다. 


반면에 데이터 규모가 아주 클 때 오픈리파인이 제안하는 전처리 방법들이 많거나 복잡하여 확인하는 데 긴 시간이 걸릴 수 있다. 

 

병합할 텍스트 항목을 찾을 때 데이터 세트(data set)에 따라 긍정 오류(FP: False Positive)나 누락의 문제가 발생하기도 한다. 

 

오픈.JPG

 

 

출처:TTA 정보통신 용어사전

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


네티즌 의견 0

스팸방지
0/0자




 
모바일 버전으로 보기