SEO's Study94 데이터 탐색 Data Exploration(데이터 탐색)은 본격적인 분석에 앞서 수행하는 데이터에 대한 사전조사로 적절한 전처리와 데이터 분석 기법을 선정하는데 도움을 주며 데이터 마이닝으로 해결하는 전형적인 의문에 대한 답을 찾게도 한다. 때문에 이번 포스팅에서는 요약 통계, 가시화, 온라인 분석처리(OLAP)를 통해 데이터 탐색을 공부해보려한다! [지나가며] 통계학의 EDA:Exploratory Data Analysis(탐색형 데이터 분석)과 비슷하게 가시화를 강조하고 있지만, EDA는 가설기반 검정을 최종 목표로 가지기 때문에 사용하는 목적은 다르다고 할 수 있다 ㅁ 아이리스 데이터 집합 데이터 탐색을 설명하기 위해 아이리스 데이터를 이용한다. 각 50개인 3종, 즉 150개의 아이리스 꽃으로 구성되는데 이 꽃.. 2019. 12. 9. 유사도와 비유사도의 척도 유사도와 비유사도는 군집화, 최근접 이웃 분류, 이상치 탐지 등의 다양한 데이터 마이닝 분야에 사용되기 때문에 매우 중요하다. 편의상 유사도나 비유사도를 모두 지칭하기 위해 근접도(Proximity)란 용어를 사용하겠다. 1. 정의 - Similarity (유사도) : 두 object의 닮은 정도에 대한 수치적인 척도로 대개 음이 아닌 수로 보통 0과 1 사이의 값을 갖는다. (0 : 유사도 없음, 1: 완전히 유사) - Dissimilarity (비유사도) : 두 object의 다른 정도에 대한 수치적인 척도로 object의 쌍이 좀 더 닮을수록 낮아진다. distance(거리)라는 용어가 자주 비유사도에 대한 동의어로 사용된다. 2. 변환 - 종종 유사도를 비유사도로, 또는 그 역으로 변환하거나 근접.. 2019. 11. 27. 데이터 전처리의 단계 ㅁ 데이터 전처리(Data Preprocessing)란? - 데이터의 품질을 개선하거나 DataMining에 적합한 형태로 원시 데이터를 변환하는 기법 데이터 전처리는 광범위한 분야이고 서로 복잡하게 관련된 여러 전략 기법으로 구성되어 있고 그 중 일부에 대해 공부할 예정이다. 지금 공부할 항목들은 분석을 위한 Data Object와 Attribute를 선택하는 작업과, Attribute를 생성/변경하는 작업의 두 범주로 나뉜다. 1. Aggregation(통계) : 두개 이상의 객체를 하나의 단일 객체로 결합하는 경우로 특정 Attribute를 통해 통합된다. ex) 날짜에 대한 값을 365일에서 12개월, 12개월을 1년으로 줄일 수 있다. : Aggregation(총계)에 대한 동기는 여러가지로 볼.. 2019. 11. 26. 데이터 품질 데이터 마이닝의 결과는 다양한 곳에 응용될 수 있다. 그 데이터들이 오로지 데이터 마이닝을 위해서 수집된 정보만은 아닐 것이다. 통계학의 여러 분야에서는 미리 지정된 수준의 데이터 품질을 달성하는 실험이나 조사의 설계를 다루며 데이터 품질 문제를 방지하는 것이 선택사항이 아니기 때문에, 데이터 마이닝은 데이터 품질문제의 검출과 수정, 저급 데이터 품질을 감내할 수 있는 알고리즘 사용에 치중한다. 1. 측정과 데이터 수집 오류 측정오류(Measurement error) : 측정 과정에서 비롯된 문제 Data Collection Error(데이터 수집 오류) : Data Object와 Attribute(속성) 값을 빼먹거나 데이터 객체를 부적절하게 포함시키는 오류 ※ 임의로 오류를 낼 수도 있긴 하다~ 2... 2019. 11. 24. 데이터와 데이터 집합 ㅁ 데이터란 ? - 데이터(Data)란 말 그대로 사실을 나타내는 수치, 이론을 세우는데 기초가 되는 사실, 자료로써 데이터 마이닝을 위한 기초자료이다. 데이터마이닝을 위해서는 여러가지 데이터 관련 논의사항이 필요하다. - 데이터의 집합(Data Set)은 데이터 객체(Data Object)들의 모임이라고 할 수 있다. 여기서 Object들은 Attribute(속성)을 특성으로 가지고 있으며, Attribute 집합으로 하나의 Object를 설명할 수 있다. 속성(Attribute)이란? - Object 또는 Time에 따라 변하는 Object의 특성이다. ex) 사람마다 가지고있는 핸드폰이 다르다, 나뭇잎은 계절마다 색이 다르다 - 숫자나 기호에 대한 것이 아니지만 객채의 특성을 논의하고 좀 더 정확하.. 2019. 11. 24. 데이터 마이닝이란? ㅁ Data Mining이란? 데이터 마이닝(Data Mining)은 대규모 데이터 저장소에서 유용한 정보를 자동으로 탐색하는 과정을 뜻한다. 데이터 마이닝 기법은 대규모 데이터 안에서 지나칠 수 있는 새롭고 유용한 패턴을 탐색하는 등의 목적에 적용되고 있다. Knowledge Discovery in Database[(:KDD) 데이터베이스에서 지식탐사]는 데이터 마이닝을 위한 입력 데이터를 변환해 유용한 정보를 도출하는 전체 과정이다. 입력데이터로는 다양한 형식(일반파일, 스프레드시트, 관계 테이블 등)으로 저장되고 있다. Preprocessing(전처리)의 목적은 입력 데이터를 변환으로 이후 분석에 적합한 형식을 맞추기 위함이다. Data Preprocessing에 필요한 과정으로는 다양한 소스로부터.. 2019. 11. 21. [LINUX] root/일반 계정 su 제한, 해제하는 방법 서버를 관리하며 보안의 중요성을 조금.. 느끼죠 이따금 필요하지만 불편하기도 한 것이 보안이라고 생각합니다. 오늘은 일반 계정에 su 명령 제한을 두는 방법과, 사용하는 방법에 대해 끄적여봅니다. su 명령은 기본적으로 특정 사용자에게만 권한을 주는 것이 보안상 옳습니다. 저도 서버를 관리하며 특정 사용자에게만 권한을 주고 있는데요, 패스워드 임계치 설정까지 해놔서.. 많이 틀리는 날에는.... 마음이 좀 그래요 .. -.- 아무튼 보안 조치는 한 번 해봐야 하니, 진행해보죠 -------------------------------------------------------------------------------------------------------------------- 1. 취약점 : 무작위.. 2019. 9. 3. [MAC OS]MAC에 Android 데이터 가져오기 안녕하세요!!!!! 최근 Vlog 찍는데에 관심이 많이 생긴 블로거입니다 :) (요즘 관심사가 수시로 바뀌는... ) 암튼, Vlog를 찍어보려는데 카메라를 사자니 비싸서.. 안드로이드 핸드폰을 활용해보기로 했어요 그래서 영상을 굉장히 많이 찍었는데.. MAC 에 연결해보니 달랑 충전만 되지 뭡니까? 그래서 찾아본 방법을 공유해봅니다 !! 우선, 대용량의 파일들을 옮기는 방법은 여러가지가 있을 수 있죠 Google Drive, Naver Drive등 포털의 저장소를 이용해도 되겠구요, 카카오톡으로 전송해서 MAC에 설치할 수 도 있겠죠 그치만.. 옮기는 과정에서 영상이 깨지는 등의 불편함을 겪기도 합니다. 이렇게 하시면 원본 사진/동영상을 쉽게 옮길 수 있더라구요! 우선은 아래 링크 클릭 ↓ ↓ ↓ ↓ .. 2019. 8. 14. [API활용] 카카오 api를 활용해 챗봇 만들기 _ 참여신청 승인 드디어, 챗봇만드는 거 승인을 받았다 (사실 부지런하지 못해서 늦게 받았다) 그간 답변이 안온 적도 있고, 만든 플러스친구를 비공개로 해두고 신청해서 반려당하기도.. 나의 실수였던 반려사유지만, 미뤄지니 하려던 의지가 살짝 꺼...ㄲ... 그래도 다시 도전!!! 조금 만들어서 공유를 할까 하다가, 우선 승인 후 모습을 보여주려고 먼저 왔다링~ 드디어 가입할 수 있는 권한을 받았고, 땡큐 문구 하나 있고 ~ 봇을 만든 작업자는 마스터 권한을 가지게 된다는 설명이 있어요 드디어 ㅠㅠㅠ 보고싶던 화면이에요 기본 시나리오가 작성되어 있고요 상단 탭 중 설정 탭에 들어가셔서 만든 플러스친구와 연동을 해서 봇을 사용할 수 있어요! 그럼 이제 끄적끄적 만들어보고 오겠습니다리~.~ ... 끝!! 2019. 6. 18. 이전 1 ··· 6 7 8 9 10 11 다음