데이터 분석/Python - pandas

[이론] 데이터 구조

toraa 2025. 1. 9. 11:04

pandas : 테이블 형식의 데이터구조 제공
→ 테이블구조를 객체로
Data Frame이라는 객체로 테이블 데이터를 담아놓게 구조 형성
series : 같은 타입 데이터들을 라벨과 함께 저장하는 1차원 배열형 데이터 구조
 
Row(index) : 0번축에 해당 (대부분 관측치 축에 해당)
Columns : 1번축에 해당 (대부분 관측치안의 변수에 해당)
 
* 라벨은 하나의 데이터 이름을 뜻함(딕셔너리의 키에 해당)
* row의 라벨은 인덱스라고 표현
 
!pip install pandas를 통해 pandas 설치
import pandas as pd 라이브러리 불러오기


DataFrame 생성 : 기본적으로 2차원 구조의 데이터가 들어가야 함

df = pd.DataFrame({'요들' : ['티모', '유미', '룰루', '베이가'],
                   '키': [7,6,5,8], 
                   '연도' : ['2023','2022','2021','2020']})
df

▶ 딕셔너리의 key는 보통 column으로 설정됨
 
 

df = pd.DataFrame([{'요들':'티모','키':7,'연도': 2023},
                   {'요들':'유미','키':6,'연도': 2022},
                   {'요들':'룰루','키':5,'연도': 2021},
                   {'요들':'베이가','키':8,  '연도': 2020}])
df

▶ column과 row 이름이 순서로 세팅됨
 
 
index와 columns 이름 지정

# 2차원 구조이면 생성 가능 
df = pd.DataFrame([[7,'2023','남자'],
                   [6,'2022','여자'],
                   [5,'2021','여자'],
                   [8,'2020','남자']], 
                  index = ['티모','유미','룰루','베이가'],
                  columns = ['키', '연도', '성별'])
df

▶ index와 column갯수가 맞아 떨어지게 세팅해야 함


pandas 사이트 : user guide, API reference 확인
 

 

pandas - Python Data Analysis Library

pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!

pandas.pydata.org