본문 바로가기
SEO's Study/프로페셔널한 이야기

데이터 분류(1) - 기본개념

by 신SEO세오 2019. 12. 29.
반응형

 

Classification(분류)은 각각의 속성 집합 x를 미리 정해진 class lable 중 하나인 y에 mapping하는 target function을 학습하는 작업이다.

   - 분류 작업의 입력 데이터 : 레코드(=instance=example)들의 집합

   - 각 레코드는 투플(x,y)로 볼 수 있으며 x는 attribute set(속성 집합), y는 category(범주) 또는 target attribute(목표 속성)으로 불리는

      class label을 의미하는 특별한 속성

 

   * 분류의 목표는 클래스가 결정되지 않은 레코드에 대해 되도록 정확한 클래스를 부여하는 것

   단, class label은 개별적이어야 한다. y가 연속적인 속성을 가지는 예측 모델링 작업인 regression(회귀)과 분류를 구분하기 위해 

 

   ex) 척추동물의 표본집합

      -> 척추동물을 포유류, 조류, 어류, 파충류, 양서류의 범주로 분류하는데 사용 됨

   - 분류기법은 binary(이진) 범주나 nominal(명목형) 범주를 갖는 데이터 집합을 예측하거나 시술하는 것이 가장 적합

      : 범주들 간의 묵시적 순서를 고려하지 않으므로 서열형에 부적합

 

 

 

분류모델(Classification Model) 구축하기

분류모델 구축을 위한 일반적 접근

 

위 그림 의 클래스 레이블이 알려져있는 레코드들로 구성된 traning set이 제공되어야 한다. 

훈련 집합은 분류모델을 구축하기 위해 사용되며 분류모델은 다시 클래스 레이블이 알려지지 않은 레이블 코드들로 구성된 시험 집합이다.

분류모델의 성능평가는 그 모델에 의해 정확하게 그리고 부정확하게 예측되는 시험 레코드(test record)들의 개수를 기반으로 한다.

이런 개수는 confusion matrix(혼동행렬)이라는 표에 표시된다. 

 

- Confusion Matrix (혼동행렬)

  알고리즘 성능평가에 사용하며 머신러닝의 정확도를 확인할 수 있다

클래스 문제를 위한 Confusion Matrix

  예를 들어, f01은 클래스 1로 잘못 예측된 클래스 0인 레코드 들의 수이다.

  이 행렬의 값들을 토대로 모델에 의해 정확하게 예측된 레코드의 총 수는 (f11+f00)개이고, 부정확한 예측은 (f01+f10)개다.

  이 정보를 하나의 숫자로 요약한다면 다른 모델들과의 성능을 비교하기가 더 편리해진다!

  

  이것을 정확도(accuracy)와 오류율(error rate)로 표현될 수 있으며 대부분의 분류 알고리즘은 시험 집합에 적용될 때 최고의 정확도, 즉 최저의 오류율에 도달하는 모델을 찾는다. 

 

 

Base Classifiers

  – Decision Tree based Methods

  – Rule-based Methods

  – Nearest-neighbor

  – Neural Networks

  – Deep Learning

  – Naïve Bayes and Bayesian Belief Networks

  – Support Vector Machines

반응형

댓글