[이론] 토큰화

데이터 분석/키워드 분석

toraa 2025. 1. 21. 11:28

텍스트 데이터는 데이터중에서도 가장 노이즈가 크며 변수가 많은 데이터입니다.
따라서 텍스트를 분석하기 앞서 분석의 용이성을 위해 몇가지의 전처리 작업을 해줍니다.

import pandas as pd

df = pd.read_csv('./data/reviews.csv')
df = df.dropna()
df

1. 토큰화 : split()

text = df.loc[0,'text']
text

띄어쓰기 기준으로 텍스트 분리

text = text.split(' ')
text

2. 숫자 인코딩

## 고유 토큰을 찾기위해 set 구조 활용
uq = set()
for text in df['text']:
    sp = text.split(' ')
    for w in sp:
        uq.add(w)
uq

set() : 중복이 불가능한 구조. 고유항목만 찾음.

특정 토큰에 대한 순서를 딕셔너리로 맵핑

## 고유 토큰에 고유 번호를 맵핑시킨 딕셔너리 구성
enc_dict = {}
for i,t in enumerate(uq):
    enc_dict[t] = i
enc_dict

토큰에 대한 번호가 부여

## 딕셔너리를 활용하여 인코딩
text = df.loc[0,'text']
str_tk = text.split(' ')
enc_tk = [enc_dict[w] for w in str_tk]
enc_tk

기록 저장소