정통적인 글(뉴스, 칼럼 등)은 기본적인 품사양식에 맞춰져있어 품사태그로 전처리 쉽지만,신조어가 포함되어있는 등에는 바이트페어 변환이 유용할 수 있음 바이트단위로 텍스트를 나눔빈도확률에 따라 최적화된 토큰셋 1. spm모듈텍스트뭉치를 텍스트 파일로 생성 텍스트 뭉치를 입력받게 되어있음텍스트파일에 구축을 해놓으면, 텍스트 파일을 그대로 입력해 학습 가능import sentencepiece as spmimport pandas as pdimport re#텍스트파일 열어주기df = pd.read_csv('./data/sentence2_test.csv')#인터페이스가 텍스트 뭉치를 넣게 만들어놨음# 추가 쓰기모드('a')로 텍스트 파일 열기with open('./data/sentence2_test.txt', 'a..