★ 데이터프레임으로 데이터를 불러오는 함수
pd.read_csv(): 콤마로 구분된 값 파일(CSV)
pd.read_excel(): 엑셀 파일(.xls, .xlsx)
pd.read_json(): JSON 형식의 파일
pd.read_html(): HTML 파일에서 테이블을 추출하여 데이터프레임으로 변환
pd.read_sql(): SQL 쿼리 결과를 데이터프레임으로
pd.read_spss(): SPSS의 .sav 파일
파일 경로 지정 : ./파일명.csv 가 제일 유용
"./data/insurance.csv"
pandas 라이브러리 불러오기
# pandas의 read_csv( ) 활용
df_ins= pd.read_csv("data/riot_lol.csv") # ./는 생략 가능
df_ins
▶ print함수보다는 주피터노트북의 마지막줄로 출력하는 것이 보기에 더 깔끔
Encoding, index, header 지정
# 인코딩(글자 저장 방법) 오류 발생
## UnicodeDecodeError 'utf-8' codec can't decode byte 0xbc in position 1: invalid start byte
pd.read_csv('data/lck_2024.csv')
가끔 한국어로만 이루어진 파일등 UnicodeDecodeError 발생
▶encoding='CP949'추가
pd.read_csv('data/lck_2024.csv', encoding='CP949')
ParserError 발생
▶header(column), index 지정
header(컬럼 이름을 설정하는 행) 지정
index(관측치를 구분할 수 있는 열) 선택
pd.read_csv('data/lck_2024.csv',
encoding='CP949',
index_col=2,
header=2)
* skiprows인자로 열을 건너뛰고 불러오기도 가능
▶ read_csv() 함수는 결과가 dataframe으로 반환됨
pd.read_csv('data/lck_2024.csv',
encoding='CP949',
index_col=2,
skiprows=2)
Excel 파일 불러오기 : read_excel()
xlrd와 openpyxl 라이브러리 설치 필요 : pip install xlrd openpyxl
df_wm = pd.read_excel('data/waterMesntkInfo202310.xlsx',
sheet_name = 'waterMesntkInfo20231130_130002',
header = 1)
df_wm
DataFrame 기본정보 파악
shape : row, column 크기 (행 수, 열 수) 형식으로 반환
df_gp.index: 데이터프레임의 인덱스 반환
df_gp.columns: 데이터프레임의 컬럼 이름 반환
df_gp.dtypes: 데이터프레임 내 각 컬럼의 데이터 타입 확인
head(n)로 상위 n개 관측치 확인
df_gp.head()
tail(m)로 끝 m개 관측치 확인
df_gp.tail(3)
(관측치, 변수) 수 확인
df_gp.shape
(250, 7)
관측치 수만 확인
df_gp.shape[0]
250
index(행 이름) 확인
df_gp.index
Index(['강남구', '강동구', '강서구', '관악구', '구로구', '도봉구', '동대문구', '동작구', '마포구', '서대문구',
...
'창원진해구', '창원의창구', '창원성산구', '통영시', '밀양시', '거제시', '양산시', '서귀포시', '제주시',
'세종시'],
dtype='object', name='시군구', length=250)
'데이터 분석 > Python - pandas' 카테고리의 다른 글
[실습] 조건 활용 인덱싱 (필터링) : LOL 아이템 (2) | 2025.01.09 |
---|---|
[이론] 조건 활용 인덱싱 (필터링) (2) | 2025.01.09 |
[실습] 데이터 불러오기, 데이터 인덱싱 : LOL 아이템 (2) | 2025.01.09 |
[이론] 데이터타입 확인, []연산 데이터 인덱싱 (2) | 2025.01.09 |
[이론] 데이터 구조 (2) | 2025.01.09 |