데이터 차원축소 DDR

데이터 차원 축소, -次元縮小,

Data Dimensionality Reduction, DDR

고차원의 원자료(raw data)를 데이터에 있는 의미 있는

특성은 유지하면서 저차원의 데이터로 변환하는 기법.

데이터는 다양한 정보를 가지고 있는데, 프로그램에서 사용되는 데이터 또는

식별자에 의해 참조되는 데이터 객체(data object)가 가지는 여러 가지 항목(item)이나

범주(category) 정보들을 데이터 속성(attribute) 혹은 특징(feature)이라고 한다.

예를 들어, ‘사용자’ 데이터에는 ‘사용자’ 객체를 표현하기 위하여 이름, 성별, 전화번호 등의

정보를 속성으로 포함할 수 있다. 이러한 속성의 개수를 차원이라고 하며

속성이 2개일 경우 2차원 데이터, 3개일 경우 3차원 데이터라고 표현한다.

일반적으로 데이터 과학(data science)에 사용되는 원자료는 다차원의 정보를 포함한다.

* 참고: 일반적으로 데이터 과학(data science) 분야에서는 데이터 객체 정보를

주로 데이터 속성(attribute)이라고 하며, 기계학습과 데이터 마이닝 분야에서는 데이터 특징(feature)이라고 한다.

데이터 과학에서 ‘차원의 저주(the curse of dimensionality)’는 데이터의

차원이 커질수록 분석을 위한 알고리즘 실행이 매우 복잡해지고 어려워지는 것을 말하는데,

이러한 문제를 해결하기 위한 방법의 하나로 데이터 차원 축소(DDR: Data Dimensionality Reduction) 기법을 사용한다.

데이터 차원 축소(DDR)에서는 특정 문제를 해결하는 데 유의미한 특징들을

선택하는 특징 선택(feature selection) 혹은 상관관계가 높은 특징들을 합성하거나

변형하여 새로운 저차원의 특징을 만드는 특징 추출(feature extraction)을 사용한다.

데이터 차원 축소(DDR)는 좋은 성능을 가진 이해하기 쉽고 빠르게 실행되는 데이터 모델을 만드는 데 목적이 있다.

고차원 데이터에 존재하는 잡음(noise) 제거, 향후 데이터 분석에서 발생하는 연산량 및 메모리 감소,

데이터를 저차원으로 시각화하거나 분석 결과를 설명하기 쉽게 하는 등의 장점이 있으나

데이터 차원 축소로 정보 손실이 발생하여 모델 정확도가 떨어질 수 있다.

대표적인 데이터 차원 축소 기법으로 주성분 분석(PCA: Principal component analysis),

선형 판별 분석(LDA: Linear discriminant analysis) 등이 있다.

데이-1.JPG

데이-2.JPG

출처:TTA 정보통신 용어사전

게시물 댓글 0개

상세페이지