본문 바로가기

전체 글438

데이터 탐색 Data Exploration(데이터 탐색)은 본격적인 분석에 앞서 수행하는 데이터에 대한 사전조사로 적절한 전처리와 데이터 분석 기법을 선정하는데 도움을 주며 데이터 마이닝으로 해결하는 전형적인 의문에 대한 답을 찾게도 한다. 때문에 이번 포스팅에서는 요약 통계, 가시화, 온라인 분석처리(OLAP)를 통해 데이터 탐색을 공부해보려한다! [지나가며] 통계학의 EDA:Exploratory Data Analysis(탐색형 데이터 분석)과 비슷하게 가시화를 강조하고 있지만, EDA는 가설기반 검정을 최종 목표로 가지기 때문에 사용하는 목적은 다르다고 할 수 있다 ㅁ 아이리스 데이터 집합 데이터 탐색을 설명하기 위해 아이리스 데이터를 이용한다. 각 50개인 3종, 즉 150개의 아이리스 꽃으로 구성되는데 이 꽃.. 2019. 12. 9.
남양주 맛집 :: 가성비 갑 한정식, 김삿갓 밥집!! 겨울놀이를 위해 신나게 강원도 홍천에 다녀왔어요!! 오랜만에 운동을한지라 온몸이 뻐근하네요 :( 고생했으니 돌아오는 길에 맛있는 저녁을 먹고자! 후니가 알고있던 맛집에 데려가줬어요 맛있는 집일거라는 기대는 하고있었는데, 생각보다 더 맛집이고 친절했었어서 추천해드리려고 해요:) [김삿갓밥집] 경기 남양주시 경춘로 1158 (매주 월요일 휴무) 영업시간 : 매주 화~금 11:30 ~ 18:00 (Last Order 17:00) 매주 토~일 11:30 ~ 21:00 (Last Order 20:00) 공휴일 11:30 ~ 21:00 (Last Order 20:00) Break Time 15:00 ~ 17:00 (요일 무관) (주차 가능) 김삿갓 밥집은 간판이 굉장히 커요! 그래서 멀~~리서부터 '아 저기구나' .. 2019. 12. 8.
남양주팔당 야경 맛집 :: 벨스타커피 드라이브하면 남양주, 남양주하면 팔당이죠? 많은 사람들이 방문하는 팔당 야경 맛집을 소개해보려고해요 [벨스타커피] 경기 남양주시 와부읍 다산로 46 영업시간 : 10:00 ~ 02:00 (연중무휴) 주차장 있음 지도에서도 보이듯 한강뷰를 제공하는 카페구요 카페지만 파스타/피자도 판매해서 식사까지 가능합니다 :) 저희는 식사를 목적으로 벨스타 커피에 다녀왔어요 벨스타 커피는 총 2개 층(1층/지하?)으로 이루어져있구요 아래층에서는 대부분 커피음료를 마시는 것으로 보였고 위층에서는 식사하시는 분들이 많더라구요 음료/식사 모두 1층에서 주문을 받다보니 비교적 움직이기 편한 1층에서 식사를 하시는 것 같았어요 벨스타 커피 입구에요 화려하죠? 저녁에 방문해서인지 더 화려했던 것 같아요 주차장에 주차를 하고나면 반.. 2019. 11. 28.
유사도와 비유사도의 척도 유사도와 비유사도는 군집화, 최근접 이웃 분류, 이상치 탐지 등의 다양한 데이터 마이닝 분야에 사용되기 때문에 매우 중요하다. 편의상 유사도나 비유사도를 모두 지칭하기 위해 근접도(Proximity)란 용어를 사용하겠다. 1. 정의 - Similarity (유사도) : 두 object의 닮은 정도에 대한 수치적인 척도로 대개 음이 아닌 수로 보통 0과 1 사이의 값을 갖는다. (0 : 유사도 없음, 1: 완전히 유사) - Dissimilarity (비유사도) : 두 object의 다른 정도에 대한 수치적인 척도로 object의 쌍이 좀 더 닮을수록 낮아진다. distance(거리)라는 용어가 자주 비유사도에 대한 동의어로 사용된다. 2. 변환 - 종종 유사도를 비유사도로, 또는 그 역으로 변환하거나 근접.. 2019. 11. 27.
데이터 전처리의 단계 ㅁ 데이터 전처리(Data Preprocessing)란? - 데이터의 품질을 개선하거나 DataMining에 적합한 형태로 원시 데이터를 변환하는 기법 데이터 전처리는 광범위한 분야이고 서로 복잡하게 관련된 여러 전략 기법으로 구성되어 있고 그 중 일부에 대해 공부할 예정이다. 지금 공부할 항목들은 분석을 위한 Data Object와 Attribute를 선택하는 작업과, Attribute를 생성/변경하는 작업의 두 범주로 나뉜다. 1. Aggregation(통계) : 두개 이상의 객체를 하나의 단일 객체로 결합하는 경우로 특정 Attribute를 통해 통합된다. ex) 날짜에 대한 값을 365일에서 12개월, 12개월을 1년으로 줄일 수 있다. : Aggregation(총계)에 대한 동기는 여러가지로 볼.. 2019. 11. 26.
데이터 품질 데이터 마이닝의 결과는 다양한 곳에 응용될 수 있다. 그 데이터들이 오로지 데이터 마이닝을 위해서 수집된 정보만은 아닐 것이다. 통계학의 여러 분야에서는 미리 지정된 수준의 데이터 품질을 달성하는 실험이나 조사의 설계를 다루며 데이터 품질 문제를 방지하는 것이 선택사항이 아니기 때문에, 데이터 마이닝은 데이터 품질문제의 검출과 수정, 저급 데이터 품질을 감내할 수 있는 알고리즘 사용에 치중한다. 1. 측정과 데이터 수집 오류 측정오류(Measurement error) : 측정 과정에서 비롯된 문제 Data Collection Error(데이터 수집 오류) : Data Object와 Attribute(속성) 값을 빼먹거나 데이터 객체를 부적절하게 포함시키는 오류 ※ 임의로 오류를 낼 수도 있긴 하다~ 2... 2019. 11. 24.