Skip to content

Latest commit

 

History

History
46 lines (23 loc) · 2.28 KB

File metadata and controls

46 lines (23 loc) · 2.28 KB

EDA (Exploratory Data Analysis) 탐색적 데이터 분석

EDA란?

1) 정의

수집한 데이터를 다양한 각도에서 관찰하고 이해하는 과정

즉 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정

2) 과정

  • 분석의 목적과 변수가 무엇이 있는지 확인 : 개별 변수의 이름이나 설명을 가지는지 확인

  • 데이터를 전체적으로 살펴보기 : 데이터에 문제가 없는지 확인. head나 tail부분을 확인, 추가적으로 다양한 탐색(이상치, 결측치 등을 확인하는 과정)

  • 데이터의 개별 속성값을 관찰 : 각 속성 값이 예측한 범위와 분포를 갖는지 확인. 만약 그렇지 않다면, 이유가 무엇인지를 확인

  • 속성 간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견 (상관관계, 시각화 등)

3) 이상치 탐색

데이터에 이상치가 있으면, 이상치가 왜 발생했는지, 어떻게 대처해야 할지(제거, 대체, 유지 등)를 판단하는 것이 중요

이상치 탐색 방법

통계 값

적절한 요약 통계 지표(summary statistics)를 사용
데이터의 중심을 알기 위해서는 평균(mean), 중앙값(median), 최빈값(mode)을 사용할 수 있고 데이터의 분산을 알기 위해 범위(range), 분산(variance)을 사용할 수 있다.

통계 지표를 이용할 때는 데이터의 특성에 주의해야 합니다.

ex) 평균에는 집합 내 모든 데이터 값이 반영되기 때문에, 이상치가 있으면 값이 영향을 받지만, 중앙값에는 가운데 위치한 값 하나가 사용되기 때문에 이상치의 존재에도 대표성이 있는 결과를 얻을 수 있다. 회사 직원들의 연봉에 대해서 평균을 구하면, 대개 중간값보다 훨씬 높게 나오는데, 그것은 몇몇 고액 연봉자가 평균을 끌어올렸기 때문

시각화

시각화를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 결정할 수 있다. 시각화 방법에는 확률밀도 함수, 히스토그램, 점 플롯(dotplot), 시계열 차트, 지도 등이 있다.

머신러닝 기법

K-means, DBSCAN 등을 통해 이상치를 확인