본문 바로가기
SEO's Study/프로페셔널한 이야기

데이터와 데이터 집합

by 신SEO세오 2019. 11. 24.
반응형

ㅁ 데이터란 ?

 

  - 데이터(Data)란 말 그대로 사실을 나타내는 수치, 이론을 세우는데 기초가 되는 사실, 자료로써 데이터 마이닝을 위한 기초자료이다.  

     데이터마이닝을 위해서는 여러가지 데이터 관련 논의사항이 필요하다.  

  - 데이터의 집합(Data Set)은 데이터 객체(Data Object)들의 모임이라고 할 수 있다.

     여기서 Object들은 Attribute(속성)을 특성으로 가지고 있으며, Attribute 집합으로 하나의 Object를 설명할 수 있다.

 

 

속성(Attribute)이란? 

  - Object 또는 Time에 따라 변하는 Object의 특성이다. 
    ex) 사람마다 가지고있는 핸드폰이 다르다, 나뭇잎은 계절마다 색이 다르다
  - 숫자나 기호에 대한 것이 아니지만 객채의 특성을 논의하고 좀 더 정확하게 분석하기 위해 객체에 숫자나 기호를 할당한다.
    이를 잘 정의된 방법으로 수행하기 위해 척도(Measurement scale)가 필요하다. 

 

척도(Measurement scale)란?
   - 수치나 기호 값을 객체의 속성에 부여하는 규칙(함수)

   - 측정(Measurement) 과정은 특정 객체의 특정 속성에 하나의 값을 연관시키기 위해 척도를 적용하는 것으로, 한 가지 경우에 주어진 
     객체의 한 속성의 "물리적인 값"이 수치나 기호로 변환된다. 이는 특정 데이터의 분석기법이 속성의 특정 타입과 일관성 있는지 결정하는
     데에 중요한 요인이 된다.

 

 

속성의 타입 == 척도의 타입

   - 측정하기 위해 사용된 값에 어떤 특성이 반영되어 있는지 분명히 할 수 있어야 한다.
     측정된 값의 특성이 속성의 기반인 특성과 일관성이 있어야하고, 불필요 정보는 제외해야하기 때문이다.

    ex) 남여 성비를 구하기 위해 주민등록번호 Object로 선정했지만, 생년월일은 필요하지 않다

 

[그림] 속성의 타입 = 척도의 타입

  ※ Nominal, Ordinal에 속하기 때문에 Interval, Ratio의 속성에서 유효하지 않는 것은 아니다. 그러나, 한 속성타입에 적합한 연산이
      그 상단의 속성타입에도 적합함을 의미하지는 않는다.  

 

 

속성을 구분하는 방법? 

   1.  속성이 가질 수 있는 값의 개수를 이용해 구분하자~

       - Discrerte(이산) : 유한 개의 값 또는 셀 수 있는 무한집합을 가짐 [이진속성(0 또는 1의 값만 갖는 정수) 포함] 
       - Continuous(연속) : 실수 값을 가지는 부동소수점 변수로 표현 

   2. 비대칭 속성 

       - 존재(0이 아닌 속성)만을 간주

     각각의 속성만 따지는 것이 아닌, 목적에 따라 비대칭 이산, 비대칭 연속형 속성이 결과로 구성될 수 있다

 

 

ㅁ 데이터 집합(Data Set)이란 ? 

  - 데이터 Object들의 모임으로, 데이터 Set은 아주 다양해지고 있기에 대표적인 3가지 집합 타입을 공부한다

더보기

  Data Set에 대해 알기 전 다수의 Data Set에 적용되고 Data Mining기법에 영향을 미치는 세 가지 특성에 대해 알아보고 간다~     
   1. 차원(Dimensionality)  : 데이터 집합의 객체들이 소유하는 속성의 수 
   2. 희소성(Sparsity)  : 비대칭 특징을 가진 일부 집합의 경우, 대부분 속성이 0의 값을 가진다. 
                                    실제적 측면에서 1인 값만 저장하고 조작하면 되므로 희소성은 장점이 된다. 

   3. 해상도(Resolution)  : 데이터를 상이한 수준의 해상도로 얻는 일을 자주 발생하며, 상이한 해상도로 데이터의 특성도 달라진다. 

 

※차원을 넓혀가는 것은 많은 데이터를 가져올 수도 있지만, 때때로 어려움을 겪게되어 차원의 저주라고도 불림 

   때문에 차원 감소가 데이터의 전처리에 대해 중요한 요소가 됨

 

 

1. Record Data  : flat(평면) 파일 or 관계 Database에 대게 저장되며, 데이터 마이닝에서 가장 많이 사용되는 형태

    - 관계 데이터베이스는 제공할 수 있는 추가적인 정보를 활용하지 않고 레코드를 검색하기 위한 편리한 장소의 역할만을 수행

 

[출처. Introduction to Data Mining, Addison-Wesely, 2005]

 

    - 트랜잭션 또는 장바구니 데이터 트랜잭션(transaction)  : 레코드 데이터의 특수한 타입으로 각 레코드(트랜잭션)가 항목의 집합을 포

    - 데이터 행렬 (=패턴 행렬)  : Record Data의 변형으로 볼 수 있지만, 수치 속성만으로 구성되어 데이터의 변환과 조작에 표준 행렬 연산
                                               적용이 가능하다. 때문에 데이터 행렬이 대부분의 통계데이터에 대한 표준 데이터 형식이 된다. 

    - 희소 데이터 행렬(Sparse data matrix)  : 데이터 행렬의 특수한 경우로 속성들이 동일한 타입을 가지며 비대칭 형태를 띈다.
                                                                   문서에 단어의 순서를 무시할 수 있다면, 용어 벡터로 표현이 가능하다. 

                                                                   문서 모임을 이렇게 표현한 것을 문서-용어 행렬(Document-term matrix)이라 한다 

 

 

 

2.  그래프 기반의 데이터 

    - 데이터 객체간의 관계를 가진 데이터
       : 객체들 간의 관계도 중요한 데이터를 전달한다.
         Object는 노드로 매핑, Object간의 관계는 링크와, 방향이나 가중치와 같은 링크 특성으로 표현

 

    - 그래프인 객체를 가진 데이터 

        : 객체가 구조를 가진다면, 즉 Object가 관계를 가진 서브 Object를 포함하는 경우

         ex) 화학 성분의 구조는 그래프로 표현될 수 있고 이때 노드는 원자, 노드간의 링크가 화학 결합이 된다. 

 

[출처. Introduction to Data Mining, Addison-Wesely, 2005]

 

3. 서열형 데이터(Ordered data)

   - 일부 타입의 데이터는 속성들이 시간이나 공간 상 순서와 관련된 관계를 맺는다. 

   - Temporal Data (순차=시간 ㄷㅔ이터) 

      : 앞서 Transaction Data에서 시간 성분을 추가 고려한 것으로 레코드 데이터를 확장한 것
        ex) CD Player를 구매한 고객이라면 추가로 CD 음반을 구매할 계획이 있음을 추측

   - Sequence data(서열 데이터)

      : 데이터 개체들 사이에 순서가 존재 (시간은 존재하지 않음) 

        ex) DNA 구조

    - Time series data(시계열 데이터)

      :  특수한 경우로 시간에 따른 속성의 변화를 관찰한 데이터 집합

         두 개의 측정시간이 시간적으로 가까우면 그러한 측정값들도 종종 매우 유사해지는 시간 자동상관을 고려해야한다.    

    - Spatial data(공간 데이터) 

      : 위성 사진 분석 데이터와 같이 각 데이터 개체가 공간 상의 위치 정보와 연관이 되는 데이터 집합

        물리적으로 가까운 Object들이 다른 방식에서도 유사해지는 경향을 중요하게 보아야 한다

 

[출처. Introduction to Data Mining, Addison-Wesely, 2005]

 

4. 비-레코드 데이터 처리(Non-Record Data)

   - Data Object들로부터 특징을 추출하여 이 특징들을 이용해 각 객체에 해당하는 레코드를 생성 후 레코드-지향 기법들을 적용할 수 있다. 
      다만, 속성들이 서로 통계적으로 독립되었다고 가정하는 데이터마이닝 기법을 사용을 무조건 사용하는 것은 바람직하지 않다. 

반응형

댓글