데이터 분석/데이터분석 이론

[이론] 탐색적 데이터분석(EDA)

toraa 2025. 1. 8. 17:30

데이터분석 : 데이터를 기반으로 인사이트를 도출 

 

데이터분석 유형 

- 기술적 분석 : 과거의 데이터 분석 (판매 데이터 분석으로 많이 팔린 제품 파악)

- 진단적 분석 : 현상이 일어난 이유를 파악 (특정 제품 매출 하락 원인 분석)

- 예측 분석 : 기존 데이터를 바탕으로 앞으로 일어날 사건 예측 (고객 이탈 가능성 예측)

- 처방적 분석 : 미래 행동을 결정하는데 필요한 방안 도출 (~을 통한 매출 증대 방안 도출)

 

* 기술적,진단적 : 관찰을 통해 / 예측, 처방적 : 모델을 통해 (AI 등)

 

 

데이터 분석 주요 프로세스

- 문제 정의

- 데이터 수집

- 데이터 전처리 : 불필요한 데이터 제거, 데이터 정제

- 데이터 분석 : 전처리와 동시에 분석이 이루어질수 있음

- 결과 해석 및 시각화 : 시각화는 데이터 분석에 속함. 시각화하고 최종 결론 도출

 

* 필요한 것 : 데이터 전처리와 분석 스킬, 데이터에 대한 도메인 지식

(보건,의료데이터 뿐만 아니라 여러 데이터를 다뤄보는 경험이 중요함)


탐색적 데이터분석 (EDA)

데이터 특성, 구조를 이해하고 탐색하는 과정

데이터를 시각화하고 요약하여, 문제를 명확하게 정의, 인사이트 도출

 

EDA의 역할

- 문제정의

- 데이터 이해

- 이상치 및 패턴 발견

- 모델링 전 데이터 준비


노션 자료- 패키지 관리와 가상환경

 

파이썬 : 오픈소스를 지향

 

pip : 패키지 관리 툴

https://pypi.org/ 에서 패키지를 다운, 설치

 

pip 주요 명령어

pip install 패키지명 : 설치

pip uninstall 패키지명 : 제거

pip list : 설치된 목록

pip show 패키지명 : 특정 패키지 정보 확인

pip freeze : 설치된 패키지를 버전과 함께 출력 

 

requirements.txt : 패키지 관리하는 방법

패키지들도 업데이트가 됨

내가 사용하고 있는 패키지의 버전을 입력

나중에 필요한 패키지를 설치할 수 있음

의존성 : 패키지안에 필요한 다른 패키지들 (버전관리도 함께 해야 함)

 

형식 : 패키지명==버전번호

numpy==1.21.2
pandas==1.3.3
matplotlib==3.4.3

 

 

사용법 

pip freeze > requirements.txt: 현재 환경의 패키지를 파일로 저장

pip install -r requirements.txt: 파일에 정의된 패키지를 설치


파이썬 가상환경

프로젝트들마다 패키지 버전이 다를때 (호환성 다를 때)

프로젝트들마다 새로운 파이썬 환경을 만들어서 독립적 환경을 제공

 

Python 기본 제공 모듈인 venv 또는 외부 모듈인 virtualenv를 통해 생성

 

가상환경으로 만들면 기존 라이브러리는 없음.

새로운 파이썬이 세팅.

가상환경 안에 설치된 라이브러리는 밖의 라이브러리에 영향x (독립적)

 

* 아나콘다 : 컴퓨터에 가상환경을 만들어서 파이썬과 패키지들을 설치

(처음부터 아나콘다로 파이썬 만들 필요x. 첨부터 가상환경을 만들 필요는 없음)