텍스트 데이터는 데이터중에서도 가장 노이즈가 크며 변수가 많은 데이터입니다.
따라서 텍스트를 분석하기 앞서 분석의 용이성을 위해 몇가지의 전처리 작업을 해줍니다.
- 토큰화
- 텍스트 클렌징
- 형태소 분석
- 바이트페어
- 벡터화 : 빈도기반의 벡터
import pandas as pd
df = pd.read_csv('./data/reviews.csv')
df = df.dropna()
df
1. 토큰화 : split()
text = df.loc[0,'text']
text
띄어쓰기 기준으로 텍스트 분리
text = text.split(' ')
text
2. 숫자 인코딩
## 고유 토큰을 찾기위해 set 구조 활용
uq = set()
for text in df['text']:
sp = text.split(' ')
for w in sp:
uq.add(w)
uq
set() : 중복이 불가능한 구조. 고유항목만 찾음.
특정 토큰에 대한 순서를 딕셔너리로 맵핑
## 고유 토큰에 고유 번호를 맵핑시킨 딕셔너리 구성
enc_dict = {}
for i,t in enumerate(uq):
enc_dict[t] = i
enc_dict
토큰에 대한 번호가 부여
## 딕셔너리를 활용하여 인코딩
text = df.loc[0,'text']
str_tk = text.split(' ')
enc_tk = [enc_dict[w] for w in str_tk]
enc_tk
'데이터 분석 > 키워드 분석' 카테고리의 다른 글
[이론] 벡터화 (2) | 2025.01.21 |
---|---|
[이론] 바이트페어 변환 (2) | 2025.01.21 |
[이론] 형태소 분석 (2) | 2025.01.21 |
[이론] 텍스트 클렌징 (3) | 2025.01.21 |
[이론] 키워드 분석 (2) | 2025.01.21 |