데이터 분석/키워드 분석

[이론] 키워드 분석

toraa 2025. 1. 21. 11:20

텍스트 데이터 전처리

텍스트클렌징

- 특수문자 제거

- 불용어 제거 : 필요없는 자주 등장 단어 (ex. 특정 단어, 그리고, 또는..)

- 소문자 변환

 

토큰화(Tokenization)

단어 토큰화 : 의미있는 단어 기반으로 자르는 것 (그 의미단어를 토큰이라 함)

문장 토큰화 : 긴 문장을 여러 문장으로 분리

 

벡터화(Embedding)

특정 단어를 머신러닝 모델이 이해할수 있게끔 특정 벡터값(소숫값)에 임베딩


키워드 시각화

키워드 빈도 그래프

빈도가 높은 순으로 나열 (주로 막대그래프)

한눈에 파악 가능함

 

워드 클라우드

사용된 키워드들의 빈도가 높을수록 글자 크기를 크게 해서 표현함

흥미 유발 장점

 

lDA토픽 모델링

비슷한 키워드끼리 군집화

단어의 유사도로 군집화시켜서 그룹별로 볼 수 있게함

 

Word2vec 유사도 그래프

키워드간의 유사도를 파악할수 있게끔 유사도를 거리로 표현

어느정도로 키워드끼리 가까운지 파악 (난이도 상)

 

→ 기본적으로 키워드빈도, 워드클라우드, 모델링 세가지 학습하기

'데이터 분석 > 키워드 분석' 카테고리의 다른 글

[이론] 벡터화  (2) 2025.01.21
[이론] 바이트페어 변환  (2) 2025.01.21
[이론] 형태소 분석  (2) 2025.01.21
[이론] 텍스트 클렌징  (3) 2025.01.21
[이론] 토큰화  (2) 2025.01.21