데이터 분석/키워드 분석

[이론] 토큰화

toraa 2025. 1. 21. 11:28

텍스트 데이터는 데이터중에서도 가장 노이즈가 크며 변수가 많은 데이터입니다.
따라서 텍스트를 분석하기 앞서 분석의 용이성을 위해 몇가지의 전처리 작업을 해줍니다.

  1. 토큰화
  2. 텍스트 클렌징
  3. 형태소 분석
  4. 바이트페어
  5. 벡터화 : 빈도기반의 벡터
import pandas as pd

df = pd.read_csv('./data/reviews.csv')
df = df.dropna()
df

 

1. 토큰화 : split()

text = df.loc[0,'text']
text

 

띄어쓰기 기준으로 텍스트 분리

text = text.split(' ')
text

 

2. 숫자 인코딩

## 고유 토큰을 찾기위해 set 구조 활용
uq = set()
for text in df['text']:
    sp = text.split(' ')
    for w in sp:
        uq.add(w)
uq

set() : 중복이 불가능한 구조. 고유항목만 찾음.

 

특정 토큰에 대한 순서를 딕셔너리로 맵핑

## 고유 토큰에 고유 번호를 맵핑시킨 딕셔너리 구성
enc_dict = {}
for i,t in enumerate(uq):
    enc_dict[t] = i
enc_dict

토큰에 대한 번호가 부여

 

## 딕셔너리를 활용하여 인코딩
text = df.loc[0,'text']
str_tk = text.split(' ')
enc_tk = [enc_dict[w] for w in str_tk]
enc_tk

'데이터 분석 > 키워드 분석' 카테고리의 다른 글

[이론] 벡터화  (2) 2025.01.21
[이론] 바이트페어 변환  (2) 2025.01.21
[이론] 형태소 분석  (2) 2025.01.21
[이론] 텍스트 클렌징  (3) 2025.01.21
[이론] 키워드 분석  (2) 2025.01.21