분류 전체보기 175

Deepseek 원리와 특징

DeepSeek Shock 2025중국 AI 스타트업 DeepSeek가 OpenAI의 o1 모델의 성능을 능가하는 DeepSeek-R1 모델 오픈 소스로 공개 → NVIDIA 주가 급락  ✓ 이 모델의 특별한 점 : 모델 개발 비용을 압도적으로 절감 DeepSeek에 따르면 모델을 개발하는 데 비용이 고작 80억 원사실이라면 Meta의 Llama의 10분의 1, OpenAI의 ChatGPT에 비해 18분의 1 수준 DeepSeek가 비용을 절감할 수 있었던 이유 중 하나는 보급형 GPU를 사용했기 때문 → GPU 시장을 장악하고 있는 NVIDIA가 직격타를 맞은 것  ✓ 요약모델을 경량화하고, 저렴한 GPU에서 학습하였으며, DeepSeek의 모델은 오픈 소스(Open Weight)로 공개됨  ✓ 의혹하..

[실습] 임베딩 시각화 (Word2Vec)

품사처리 클렌징한 데이터 로드 import pandas as pddata = pd.read_csv('./data/pre_text.csv').dropna()sentences = data['clean'].apply(lambda x: x.split()).to_list()# 불용어 리스트stopwords = ['스타', '벅스', '스', '벅'] # 불용어 제거sentences = [ [word for word in sentence if word not in stopwords] for sentence in sentences]# 결과 sentences[:5]▷ 불용어('스타', '벅스', '스', '벅') 제거 작업을 추가했다 Word2Vec 학습 from gensim.models import Wor..

[이론] 텍스트 임베딩

word2vec 모델 : 키워드(단어)간 유사도를 학습하여 임베딩을 만듦 scipy 1.13버전 이하로 설치!pip install "scipygensim 라이브러리 설치!pip install gensim 품사처리 클렌징한 데이터로드 import pandas as pd# 데이터 로드data = pd.read_csv('./data/sentence2_tag.csv').dropna()sentences = data['text_tag'].apply(lambda x: x.split()).to_list()sentences[:5][['선물', '수신자', '못', '연락', '제대로', ...]]기본적으로 2차원의 중첩 리스트 구조여야 함 1. word2vec 학습word2vec은 같이 자주 등장하는 단어를 학..

[실습] 텍스트 시각화

pre_text.csv 의 텍스트 데이터를 활용하여 자유롭게 시각화 분석 해보기(필요시 불용어 제거 등 전처리 추가) 1. 빈도그래프 만들기import pandas as pdst_df = pd.read_csv('./data/pre_text.csv').dropna()st_dffrom sklearn.feature_extraction.text import CountVectorizerimport numpy as npcvec = CountVectorizer(max_df=0.9, min_df=3, analyzer = 'word', )X = cvec.fit_transform(st_df['clean'])x = X.toarray()x.shape(693, 146)처음엔 토큰 수가 너무..

[이론] 텍스트 시각화 - LDA 토픽 모델링

토픽을 추출 - 숨겨진 주제를 추출함벡터로 표현하여 군집화함기본적으로 벡터화까지 전처리가 진행되어야 함 LatentDirichletAllocation와 pyLDAvis모듈을 활용 !pip install pyldavis https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.LatentDirichletAllocation.html LatentDirichletAllocationGallery examples: Topic extraction with Non-negative Matrix Factorization and Latent Dirichlet Allocationscikit-learn.orghttps://github.com/bmabey/p..

[이론] 텍스트 시각화 - 네트워크 그래프

단어사이의 관계를 그래프로 표현특정 하나의 문장에 같이 나오는 단어쌍 빈도를 기반으로 시각화파이썬의 networkx 모듈 활용https://networkx.org/documentation/stable/tutorial.html Tutorial — NetworkX 3.4.2 documentationTutorial This guide can help you start working with NetworkX. Creating a graph Create an empty graph with no nodes and no edges. import networkx as nx G = nx.Graph() By definition, a Graph is a collection of nodes (vertices) along wi..

[이론] 텍스트 시각화 - 워드 클라우드

워드클라우드 라이브러리 설치!pip install wordcloudhttps://github.com/amueller/word_cloud GitHub - amueller/word_cloud: A little word cloud generator in PythonA little word cloud generator in Python. Contribute to amueller/word_cloud development by creating an account on GitHub.github.com  워드 클라우드 생성빈도값에 따라 단어 크기를 다르게 표현from wordcloud import WordCloudimport numpy as np# WordCloud 모델 생성wc = WordCloud(font_path..

[이론] 텍스트 시각화 - 빈도 & TF-IDF 그래프

텍스트 시각화빈도, tfidf 그래프워드클라우드연결중심 네트워크 그래프LDA 토픽 모델링Word2Vec 임베딩 그래프빈도 & TF-IDF 그래프 : 특정 토큰 빈도, 중요도로 강조할 키워드 시각화import pandas as pdstore_df = pd.read_csv('./data/sentence2_tag.csv').dropna()store_df 1. 빈도 그래프 그리기CountVectorizer를 활용한 빈도 총합 연산한글자는 단어로 취급하지 않음→ 굳이 한글자 제거 작업이 필요하지 않음 한글자 단어를 추가하고 싶을때, 정규식 추가token_pattern = r'(?u)\b\w+\b'from sklearn.feature_extraction.text import CountVectorizerimport ..

[이론] 벡터화

one-hot 인코딩 : 배열이 너무 길어지고 효율성이 떨어져서 임베딩 기법 사용 1. 빈도 벡터화단어를 의미하는 단어 벡터가 아닌, 하나의 문장을 의미sklearn에서 제공하는 counvectorizer 객체 사용from sklearn.feature_extraction.text import CountVectorizer import pandas as pddf = pd.read_csv('./data/sentence2_tag.csv').dropna()## max_df : 해당 확률 이상으로 빈도가 많은 토큰을 제외#내가 설정한 빈도 이상으로 등장하는 토큰 제외## min_df: 해당 확률 이하로 빈도가 적은 토큰을 제외#내가 설정한 빈도 이하로 등장하는 토큰 제외cvec = CountVectorizer(ma..