article, news, papers 3

Deepseek 원리와 특징

DeepSeek Shock 2025중국 AI 스타트업 DeepSeek가 OpenAI의 o1 모델의 성능을 능가하는 DeepSeek-R1 모델 오픈 소스로 공개 → NVIDIA 주가 급락  ✓ 이 모델의 특별한 점 : 모델 개발 비용을 압도적으로 절감 DeepSeek에 따르면 모델을 개발하는 데 비용이 고작 80억 원사실이라면 Meta의 Llama의 10분의 1, OpenAI의 ChatGPT에 비해 18분의 1 수준 DeepSeek가 비용을 절감할 수 있었던 이유 중 하나는 보급형 GPU를 사용했기 때문 → GPU 시장을 장악하고 있는 NVIDIA가 직격타를 맞은 것  ✓ 요약모델을 경량화하고, 저렴한 GPU에서 학습하였으며, DeepSeek의 모델은 오픈 소스(Open Weight)로 공개됨  ✓ 의혹하..

Extended CoT(Chain-of-Thought)

Efficient CoT : CoT의 추론 능력을 유지하면서, 출력되는 토큰의 양을 줄여 시간과 비용을 효율적으로 개선하기 위한 연구 최근 Tencent AI의 연구진은 Extended CoT가 계산을 효율적이고 지능적으로 답변을 생성하고 있는가에 대해 의문을 제기하였다. Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs 에서 Extended CoT가 Overthinking을 유발하는것을 실험을 통해 확인했다.  Extended CoTCoT가 하나의 생각을 연쇄적으로 탐색하는 기존의 방식(DFS)과 달리,여러개의 전략을 우선 탐색(BFS)한 다음 각 전략을 여러 단계로 나누어 CoT를 진행하는 방식.여러 개의 답변을 생성한다는 장점..

PEFT : 파라미터 효율적 파인 튜닝(Parameter Efficient Fine Tuning), LoRA

과도하게 많아진 AI 모델의 파라미터 수로 인해, 모델 학습에 필요한 자원이 증가됨PEFT는 모델을 효율적으로 훈련하기 위한 연구분야로, 모델의 전체 파라미터 대신 일부만 효율적으로 학습하여성능은 보장하고, 학습 비용을 절감하려는 것이 목적. AI 모델의 학습과정1. 사전 학습(Pre-training) : 방대한 양의 데이터를 학습하며 분야를 한정하지 않고 전반적인 지식을 모두 익힘2. 파인 튜닝(Fine Tuning) : 특정한 분야의 지식을 집중적으로 학습 PEFT의 목적 : 파인 튜닝 단계 학습 비용 절감- 이미 사전 학습 단게에서 필요한 대부분의 지식을 습득했으므로,파인 튜닝에서는 더 적은 비용만으로도 특정 작업을 수행하도록 할 수 있음 - 딥러닝 모델의 파라미터 중 일부만을 선택해 파라미터를 업..