본문 바로가기
SEO's Study/프로페셔널한 이야기

데이터 탐색

by 신SEO세오 2019. 12. 9.
반응형

Data Exploration(데이터 탐색)은 본격적인 분석에 앞서 수행하는 데이터에 대한 사전조사로 적절한 전처리와 데이터 분석 기법을 선정하는데 도움을 주며 데이터 마이닝으로 해결하는 전형적인 의문에 대한 답을 찾게도 한다. 때문에 이번 포스팅에서는 요약 통계, 가시화, 온라인 분석처리(OLAP)를 통해 데이터 탐색을 공부해보려한다!

 

 

[지나가며]

통계학의 EDA:Exploratory Data Analysis(탐색형 데이터 분석)과 비슷하게 가시화를 강조하고 있지만, EDA는 가설기반 검정을 최종 목표로 가지기 때문에 사용하는 목적은 다르다고 할 수 있다

 

 

 

ㅁ 아이리스 데이터 집합

  데이터 탐색을 설명하기 위해 아이리스 데이터를 이용한다. 각 50개인 3종, 즉 150개의 아이리스 꽃으로 구성되는데 이 꽃들은 5개의 속성에 의해 구별될 수 있다. 

 

1. sepal length (cm단위의 꽃받침길이)

2. sepal width (cm 단위의 꽃받침폭)

3. petal length (cm단위의 꽃잎길이)

4. petal width (cme단위의 꽃잎폭)

5. Setosa, Versicolour, Virginica (아이리스 품종)

 

 

Summary Statistic(요약통계)는 평균이나 표준편차와 같이 대규모 값 집합의 여러가지 특징을 한 개의 수치나 소수의 수치 집합으로 파악하는 정량적인 값으로 사람들에게 가장 잘 알려진 부분이다.

 

- 빈도와 최빈값 : 정렬되지 않은 범주형 값의 집합이 주어지는 경우 특정 데이터 집합에서 각 값들에 발생하는 빈도를 계산한다.

 

*최빈값(mode)은 범주형 속성으로 가장 높은 빈도를 가진 값이다

- 백분위수  : 

    1. 서열형 데이터에서는 값의 집합에 대한 Percentile(백분위수)를 고려하는 것이 더 유용하다.

    2. 연속형 데이터에서 가장 많이 사용되는 요약통계로는 mean(평균)과 median(중앙값)으로 집합 값의 location에 대한 척도이다. 

 

        간단히 표현하면 데이터가 홀수개면 가운데 값이 중앙 값, 짝수개면 두 개의 중간값을 평균 낸 것이 중앙값이다.

        다만, 평균은 Outlier(이상치)에 매우 취약하므로 집합 값의 확산을 더 견고하게 추정할 수 있는 척도로서 AAD, MAD, IQR을 사용한다.

              - AAD : Absolute Average Deviation (절대평균편차)

              - MAD : Median Absolute Deviation (중앙절대편차)

              - IQR  :  Interquartile Range  (사분위간범위)

 

 

 

Data visualization(데이터 가시화)는 정보를 그래픽이나 테이블 형식으로 보여주는 것으로, 시각화의 목적은 인간이 시각화된 정보를 해석해 정보에 대한 내적 모델을 생성하는 것이다. 가시화 기법은 Visual Data mining이라고 불리기도 하며 일상적으로 날씨, 경제, 선거 결과를 설명하는데 자주 사용되는 방식이다. 

   # 많은 양의 데이터를 시각화 했을 때, 이상징후나 트렌드를 한눈에 파악할 수 있다.

   # 패턴을 발견하기위한 마이닝 과정이지만, 결과를 직관적으로 표현하는 중요한 수단이기도 하다. 

   # 예를 들면, 지역별 해수면 온도(극지방으로 갈수록 해수면 온도는 낮다)

 

간략히 정리하면 정보를 시각적 형식으로 변환한다는 것

시각적인 형식으로는 막대그래프, 행(또는 열)을 가진 테이블, x-y-z축을 가진 그래프, 기하학적 도표 등이 될 수 있다.

 

객체는 시각화하는데 어려움이 없을 수 있지만, 속성의 시각화는 유의할 내용이 있다

속성에는 명목형, 서열형, 연속형(구간이나 비율)이 존재하는데, 연속, 서열형은 연속적이고 순서화 된 그래프에 따라 위치, 강도, 크기 등이 변환될 수 있지만 명목형의 경우 순서화되지 않은 객체를 가지고 있으므로 그래프 자체에 내재된 값과 실제 값이 다를 수 있기 때문이다.  

 

- Histogram (히스토그램)

  소수 속성의 데이터를 가시화 하는 기법으로 단일 속성에서 관찰된 값들의 분포를 직관적으로 파악할 수 있도록 한다. 

 

- two dimensional histogram (2차원 히스토그램)

  두 속성의 연관분포를 2차원 막대그래프로 표현한다. 그러나 일부 막대가 다른 막대에 감춰지기도 해서 시각적인 면에서는 더 복잡하다

       # 3차원 히스토 그램은 3가지의 속성을 막대그래프로 표현한다 

two dimensional histogram

- Box Plots (상자 도표)

  단일 수치 속성의 값 분포를 보여주는 다른 방법으로, 상대적으로 소형이라 많은 데이터를 동일한 도표에 보여줄 수 있다.

  아래 그림의 왼쪽 상자의 하단과 상단의 끝은 각각 25번째, 75번째 백분위 값을 의미하며 outlier(이상치)는 '+'로 표시 되었다.

 

- Pie Chart (파이 차트)

  원형 그래프로 대중적인 문서에는 흔히 사용되지만 기술 문서에는 상대적 크기 판단이 어려워 빈번히 사용되진 않는다.

 

 

- Scatter plot (산포도)

   두 속성의 관련성을 2차원(or 3차원) 도표에 점으로 나타냄

 

- Contour Plots (등고 도표)

  일부 3차원 데이터에서 두 속성은 평면 상의 위치를 명세하고 세 번째 속성은 온도나 고도와 같은 연속형 값을 가지는데, 이때 Contour Plots으로서 평면을 세 번째 속성(온도, 고도)의 값이 개략적으로 동일하도록 구분된 영역으로 분할하는 것이다.

 

- OLAP (온라인 분석 처리)

  Online Analytical Processing의 약자로 데이터를 다차원 배열로 나타내는 것

         

- 다차원배열 구성은 어찌함?

  다차원 배열의 값, 축의 값으로 사용 할 타겟 속성들을 정함 (여기서 속성의 수가 다차원 배열의 차원을 결정함) 

 

- 다차원 데이터 분석

   : 데이터에 대한 다차원 관점을 택하는 이유는 다양한 방법에서 데이터 총계가 가지는 중요성 때문으로 OLAP과 관련 시스템 측면에서 볼 때 데이터를 다차원 배열로 살펴보고 데이터의 구조를 더 잘 분석하기 위하여 데이터를 집단화하는 것으로 구성된다

 

       1. Data Cube (데이터 큐브) 

         - 데이터에 대해 모든 가능한 합계(총계)

       2. Slicing & Dicing (슬라이싱 & 다이싱)

         - Slicing : 하나 또는 여러 차원에 대해 특정한 값을 명시함으로써 전체 다차원 배열로부터 셀 그룹을 선택하는 것

         - Dicing : 속성 값의 범위를 명시해 셀의 부분집합을 선택하는 것 

       3. Roll-Up & Drill-Down (롤업 & 드릴다운)   :  총계에 연관 있음

         - Roll-Up : 모든 일별 데이터로 월별 총계를 내는 방법

         - Drill-Down : 모든 월별 총계를 일별 총계로 분할하는 방법

        

 

 

반응형

댓글