유사도와 비유사도는 군집화, 최근접 이웃 분류, 이상치 탐지 등의 다양한 데이터 마이닝 분야에 사용되기 때문에 매우 중요하다.
편의상 유사도나 비유사도를 모두 지칭하기 위해 근접도(Proximity)란 용어를 사용하겠다.
1. 정의
- Similarity (유사도) : 두 object의 닮은 정도에 대한 수치적인 척도로 대개 음이 아닌 수로 보통 0과 1 사이의 값을 갖는다.
(0 : 유사도 없음, 1: 완전히 유사)
- Dissimilarity (비유사도) : 두 object의 다른 정도에 대한 수치적인 척도로 object의 쌍이 좀 더 닮을수록 낮아진다.
distance(거리)라는 용어가 자주 비유사도에 대한 동의어로 사용된다.
2. 변환
- 종종 유사도를 비유사도로, 또는 그 역으로 변환하거나 근접도 척도를 [0,1]과 같은 특정범위로 적용하기 위해 적용된다.
3. 단순 속성 간의 유사도와 비유사도
- 여러 개의 속성을 가진 객체들의 근접도는 보통 개별 속성들의 근접도를 결합해서 정의된다
명목형 속성은 Object의 유일성에 대한 정보만을 반영하고 있으므로 두 Object가 동일한 값을 가지고 있는지 여부만을 판별할 수 있다. 이런 경우의 유사도는 속성 값들이 일치하면 1, 아니면 0으로 정의되며 비유사도도 정의될 수 있다.
서열형 속성을 가지는 객채들의 경우엔 수서에 대한 정보도 고려해야하므로 조금 복잡해진다.
서열형 속성에 대한 유사도(비유사도)의 정의는 동일한 간격을 가정하고 실제로 그렇지 않으므로 이상해질 수도 있다.
구간이나 비율 속성의 경우, 비유사도는 보통 0에서 1까지보다는 0에서 무한대로 본다.
이 속성의 유사도는 비유사도를 유사도로 변환해서 표현할 수 있다. 위 표에서 x, y는 표시된 유형의 속성을 한 개 지닌 두 객체이다.
더불어 d(x, y)와 s(x, y)는 각각 x, y 간의 비유사도와 유사도다. 다른 방법도 가능하나 가장 일반적인 방법이라 볼 수 있다.
4. 데이터 객체 간의 비유사도
- Distance(거리)
1. Euclidean Distance(유클리드 거리)
2. Minkowski Distance(민코우스키 거리)
: Euclidean Distance를 일반화 한 것으로 다음과 같다.
3.
'SEO's Study > 프로페셔널한 이야기' 카테고리의 다른 글
데이터 분류(1) - 기본개념 (0) | 2019.12.29 |
---|---|
데이터 탐색 (0) | 2019.12.09 |
데이터 전처리의 단계 (0) | 2019.11.26 |
데이터 품질 (0) | 2019.11.24 |
데이터와 데이터 집합 (0) | 2019.11.24 |
댓글