본문 바로가기
SEO's Study/프로페셔널한 이야기

데이터 품질

by 신SEO세오 2019. 11. 24.
반응형

데이터 마이닝의 결과는 다양한 곳에 응용될 수 있다. 그 데이터들이 오로지 데이터 마이닝을 위해서 수집된 정보만은 아닐 것이다. 

통계학의 여러 분야에서는 미리 지정된 수준의 데이터 품질을 달성하는 실험이나 조사의 설계를 다루며 데이터 품질 문제를 방지하는 것이 선택사항이 아니기 때문에, 데이터 마이닝은 데이터 품질문제의 검출과 수정, 저급 데이터 품질을 감내할 수 있는 알고리즘 사용에 치중한다.

 

 

1. 측정과 데이터 수집 오류

 측정오류(Measurement error)  : 측정 과정에서 비롯된 문제 

 Data Collection Error(데이터 수집 오류)  : Data Object와 Attribute(속성) 값을 빼먹거나 데이터 객체를 부적절하게 포함시키는 오류

    ※ 임의로 오류를 낼 수도 있긴 하다~ 

 

 

2. Noise(잡음)

  잡음은 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것으로 아래 그림과 같이 실제 데이터는 매끈한 곡선 형태의 시계열 데이터였지만 측정 과정 중 잡음이 포함되어 실제 값과 다른 데이터를 얻게 되어 실제 데이터의 형태를 잃어버릴 수도 있다. 

 

[출처. Introduction to Data Mining, Addison-Wesely, 2005]

 

3. Artifact(아티팩트)

반복적인 왜곡으로 사진의 집합에서 동일한 위치에 생기는 줄무늬나 빛번짐과 같이 좀더 반복적인 현상의 결과

 

 

4. Outlier(이상점)

평균적인데이터와 심하게 다른 값을 가지는 데이터다. Noise와 구분하기 어려우며 시간데이터 뿐 아니라 여러 방면의 데이터를 접목시켜야 찾을 수 있다. 또한, Noise와 다르게 관심의 대상이 될 수도 있다.

 

 

5. Missing Values(누락 값)

Data Object의 특정 attribute가 누락된 것으로, 사유는 값을 수집하지 못했거나 수집시기에 값이 없었을 수도 있다. 누락 값을 추정하거나 확률적으로 대체할 수 있으며 해당 Object등을 제거하거나 분석 시 Missing Values를 무시하도록 할 수 있다. 

 

 

6. Duplicate Data(중복 데이터)

하나의 특정 Object에 여러 Attribute를 가지고 있으면 데이터가 여러개 들어올 수 있으므로 Data Cleaning(데이터 정제)으로 해결한다.

 

 

 

 

 

반응형

댓글