상세페이지

ICT용어

재현 데이터,Synthetic data

  • 박서진
  • 22-05-23 12:34
  • 조회수 87

재현 데이터, 再現-, synthetic data

 

동의어 : 합성 데이터

 

실제 데이터와 통계적 특성이 유사하여 실제 데이터를 분석한 결과와 유사한 결과를 

 

얻을 수 있도록 인공적으로 재현하여 생성한 가상 데이터.


재현 데이터(synthetic data)는 실제 데이터의 통계적 특성을 파악하여 모델을 만들고, 

 

그 해당 모델에서 생성된 가상 데이터다. 개인정보보호 등을 이유로 실제 데이터에 

 

접근하기 어려운 경우나 학습에 사용될 실제 데이터가 현저히 적은 경우에 사용한다.


재현 데이터는 실제 데이터와 달리 법적인 제약이 적고, 여러 버전으로 

 

많은 양의 데이터를 만들어낼 수 있어 다양한 분석이 가능하다. 

 

초기에는 통곗값을 이용하여 결측 값(missing value; 빠진 데이터)을 대체하는 데 사용하였지만, 

 

점차 기계학습(ML: Machine Learning)과 심층 기계학습(deep learning)을 적용한 데이터 재현으로 발전하였다.


재현 데이터는 텍스트 데이터뿐 아니라 이미지 데이터 재현도 가능한데 

 

생성적 대립 신경망(GAN: Generative Adversarial Network)을 이용하여 의료 분야 

 

재현 데이터를 생성하게 되면, 의료 데이터 사용에 가장 큰 걸림돌인 

 

개인/민감 정보 식별 문제를 해소할 수 있다.

 

다만, 엄밀한 의미에서 재현 데이터는 실제 데이터가 아니기 때문에 

 

연구 진실성에 대한 논쟁의 소지가 있을 수 있다. 

 

예를 들어, 의료 분야 재현 데이터를 이용하였을 경우 이는 가짜 데이터이기 때문에 

 

연구 진실성을 확보하는 데 한계가 있다. 또 데이터 결과를 의료 행위의 임상적 근거로 

 

사용하는 만큼 잘못된 의료 정보 활용에 따른 문제 발생 가능성이 있다.

 

재현데이터.JPG

 

출처:TTA 정보통신 용어사전 

 

 

 

 

 

 

 

 

 

 

 

 


게시물 댓글 0

  • 등록된 댓글이 없습니다.

backward top home