Classification(분류)은 각각의 속성 집합 x를 미리 정해진 class lable 중 하나인 y에 mapping하는 target function을 학습하는 작업이다.
- 분류 작업의 입력 데이터 : 레코드(=instance=example)들의 집합
- 각 레코드는 투플(x,y)로 볼 수 있으며 x는 attribute set(속성 집합), y는 category(범주) 또는 target attribute(목표 속성)으로 불리는
class label을 의미하는 특별한 속성
* 분류의 목표는 클래스가 결정되지 않은 레코드에 대해 되도록 정확한 클래스를 부여하는 것
단, class label은 개별적이어야 한다. y가 연속적인 속성을 가지는 예측 모델링 작업인 regression(회귀)과 분류를 구분하기 위해
ex) 척추동물의 표본집합
-> 척추동물을 포유류, 조류, 어류, 파충류, 양서류의 범주로 분류하는데 사용 됨
- 분류기법은 binary(이진) 범주나 nominal(명목형) 범주를 갖는 데이터 집합을 예측하거나 시술하는 것이 가장 적합
: 범주들 간의 묵시적 순서를 고려하지 않으므로 서열형에 부적합
분류모델(Classification Model) 구축하기
위 그림 의 클래스 레이블이 알려져있는 레코드들로 구성된 traning set이 제공되어야 한다.
훈련 집합은 분류모델을 구축하기 위해 사용되며 분류모델은 다시 클래스 레이블이 알려지지 않은 레이블 코드들로 구성된 시험 집합이다.
분류모델의 성능평가는 그 모델에 의해 정확하게 그리고 부정확하게 예측되는 시험 레코드(test record)들의 개수를 기반으로 한다.
이런 개수는 confusion matrix(혼동행렬)이라는 표에 표시된다.
- Confusion Matrix (혼동행렬)
알고리즘 성능평가에 사용하며 머신러닝의 정확도를 확인할 수 있다
예를 들어, f01은 클래스 1로 잘못 예측된 클래스 0인 레코드 들의 수이다.
이 행렬의 값들을 토대로 모델에 의해 정확하게 예측된 레코드의 총 수는 (f11+f00)개이고, 부정확한 예측은 (f01+f10)개다.
이 정보를 하나의 숫자로 요약한다면 다른 모델들과의 성능을 비교하기가 더 편리해진다!
이것을 정확도(accuracy)와 오류율(error rate)로 표현될 수 있으며 대부분의 분류 알고리즘은 시험 집합에 적용될 때 최고의 정확도, 즉 최저의 오류율에 도달하는 모델을 찾는다.
Base Classifiers
– Decision Tree based Methods
– Rule-based Methods
– Nearest-neighbor
– Neural Networks
– Deep Learning
– Naïve Bayes and Bayesian Belief Networks
– Support Vector Machines
'SEO's Study > 프로페셔널한 이야기' 카테고리의 다른 글
데이터 분류(3) - 다른 방법들 Alternative Techniques - 1 (0) | 2020.01.08 |
---|---|
데이터 분류(2) - 의사결정 트리 (0) | 2020.01.02 |
데이터 탐색 (0) | 2019.12.09 |
유사도와 비유사도의 척도 (0) | 2019.11.27 |
데이터 전처리의 단계 (0) | 2019.11.26 |
댓글