데이터 전처리의 단계

ㅁ 데이터 전처리(Data Preprocessing)란?

- 데이터의 품질을 개선하거나 DataMining에 적합한 형태로 원시 데이터를 변환하는 기법

데이터 전처리는 광범위한 분야이고 서로 복잡하게 관련된 여러 전략 기법으로 구성되어 있고 그 중 일부에 대해 공부할 예정이다.

지금 공부할 항목들은 분석을 위한 Data Object와 Attribute를 선택하는 작업과, Attribute를 생성/변경하는 작업의 두 범주로 나뉜다.

1. Aggregation(통계)

: 두개 이상의 객체를 하나의 단일 객체로 결합하는 경우로 특정 Attribute를 통해 통합된다.

ex) 날짜에 대한 값을 365일에서 12개월, 12개월을 1년으로 줄일 수 있다.

: Aggregation(총계)에 대한 동기는 여러가지로 볼 수 있다.

- 데이터 축소에 따른 소형 데이터 집합은 적은 기억 공간과 처리시간을 요구한다

- 저수준 관점 대신 고수준 관점을 제공하여 범위나 규모에 변화를 가져올 수 있다

- Object나 Attribute Group의 행위는 개별 객체나 속성의 행위보다 안정적이다
-> 집계된 수량이 집계되는 개별 객체보다 가변성이 적다

2. Sampling (표본추출)

: 객체의 부분집합을 선택하는 접근법으로 데이터 마이닝에서 흔히 사용 됨

- Sampling without replacement (비복원추출)

: 각 항목 선택 시, 그것을 population(모집단)을 구성하는 모든객체의 집합으로부터 제거

- Sampling with replacement (복원추출)

: Object가 표본으로 선택될 때 그것을 Population(모집단)으로부터 제거하지 않음

※ 희귀 클래스에 대한 분류 모델을 구축할 경우, 희귀 클래스가 표본에 적절하게 표현되는 일이 중요하므로
관심 항목에 대해 상이한 빈도를 수용할 수 있는 표본추출 기법이 필요하다 (충화 표본추출 Startified sampling)

※ 표본 추출과 정보 손실(Sampling and loss of information)

: 표본추출 기법 선택 후 표본 크기를 보자. 표본 크기가 커지면 표본이 대표성을 가질 확률이 높지만 표본 추출의 많은 장점을 잃게 된다.

※ 적당한 표본 사이즈 (Proper Sample size)

3. Dimensionality Reduction (차원 축소)

- 데이터 차원이 증가함에 따라 매우 어려워지는 현상인 "차원의 저주"가 존재한다 (= 차원이 크다고 좋은 것만은 아니다)

- 차원 축소를 위한 선형대수 기법

# PCA : Principal Component Analysis (주성분분석)

# SVD : Singular Value Decomposition (특이 값 분해)

4. Feature subset selection (특징 부분집합)

- Redundant Feature(중복특징)

: 한 개 이상의 다른 속성에 포함된 정보의 상당 부분 또는 전체가 중복된 것

- Irrelevant Feature(비관련특징)

: 진행하려는 데이터 마이닝 작업에 거의 불필요한 정보를 포함한 것

ex) 고과 평균을 매기려는 데이터가 있을 때 사번ID는 비관련 특징

일부 중복 특징이나 비관련 특징을 선택하는데 가장 필요로 하는 것은 삽입, 필터, 래퍼 3가지로 정의할 수 있다.

- 삽입 방법 : 알고리즘 자체에서 사용할 속성과 무시할 속성을 결정

- 필터 방법 : 알고리즘 실행 전에 상관관계가 가능한 한 낮은 속성의 집합을 선택하는 등의 방식

- 래퍼(wrapper)방법 : 최상의 부분집합을 발견하기 위해 목표 데이터 마이닝 알고리즘을 블랙박스로 사용

5. Feature creation (특징 생성)

- 원본데이터로부터 특징의 새로운 집합을 생성하는 것

6. Discretization and Binarization (이산화와 이진화)

- Discretization : continuous attribute를 categorical(범주) attribute로 변경

- Binarization : continuous attribute, discrete attribute 모두 binary attribute로 변경

7. Variable Transformation(변수 변환)

- 분석을 위해 불필요한 변수를 제거하고, 변수를 반환하며, 새로운 변수를 생성시키는 작업.

- 변수란 모델링에서 사용되는 것으로 Independent Variable(독립변수), Dependent Variable(종속변수) 또는 기타변수로 분류

Independent Variable : 입력 값 또는 원인을 나타냄

dependent Variable : 결과물 또는 효과를 나타냄

기타 변수 : 기타 여러가지 원인으로 관찰 중인 변수

저작자표시

'SEO's Study > 프로페셔널한 이야기' 카테고리의 다른 글

데이터 탐색 (0)	2019.12.09
유사도와 비유사도의 척도 (0)	2019.11.27
데이터 품질 (0)	2019.11.24
데이터와 데이터 집합 (0)	2019.11.24
데이터 마이닝이란? (0)	2019.11.21

나의 일상, 그 어딘가의 기록

데이터 전처리의 단계

'SEO's Study > 프로페셔널한 이야기' 카테고리의 다른 글

댓글

티스토리툴바

데이터 전처리의 단계

'SEO's Study > 프로페셔널한 이야기' 카테고리의 다른 글

관련글

댓글

티스토리툴바