Deepseek 원리와 특징
DeepSeek Shock 2025
중국 AI 스타트업 DeepSeek가 OpenAI의 o1 모델의 성능을 능가하는 DeepSeek-R1 모델 오픈 소스로 공개
→ NVIDIA 주가 급락
✓ 이 모델의 특별한 점
: 모델 개발 비용을 압도적으로 절감
DeepSeek에 따르면 모델을 개발하는 데 비용이 고작 80억 원
사실이라면 Meta의 Llama의 10분의 1, OpenAI의 ChatGPT에 비해 18분의 1 수준
DeepSeek가 비용을 절감할 수 있었던 이유 중 하나는 보급형 GPU를 사용했기 때문
→ GPU 시장을 장악하고 있는 NVIDIA가 직격타를 맞은 것
✓ 요약
모델을 경량화하고, 저렴한 GPU에서 학습하였으며, DeepSeek의 모델은 오픈 소스(Open Weight)로 공개됨
✓ 의혹
하지만 많은 전문가들은 비용을 과소 추정했을 것이라고 분석
반도체 연구·컨설팅 기업 세미애널리시스는 실제 추정 비용이 약 90배는 더 비쌀 것이라고 추정
DeepSeek가 밝힌 비용은 단순히 시간당 2달러 기준으로 2개월 빌렸을 때를 가정한 것
(연구 비용, 데이터 처리 비용 등은 미포함)
이번 사태로 NVIDIA에 위기가 찾아온 것처럼 보이기도 하지만,
DeepSeek를 학습할 때 사용한 GPU 역시 NVIDIA의 H800 모델
결과적으로 NVIDIA의 보급형 GPU로 엄청난 모델을 개발했는데 NVIDIA의 주가가 떨어진 것
사실, NVIDIA의 GPU를 쓰지 않는 경우는 거의 없음
이런 논란과 무관하게 DeepSeek가 국제 사회에 미친 파급력은 엄청남
DeepSeek-V3
작년 12월 말에 발표된 모델로, MoE(Mixture of Expert) 아키텍처를 적용한 LLM
이번에 발표한 모델은 DeepSeek-V3 모델을 기반으로 강화학습을 통해 추론 성능을 향상시킨 모델
일반적으로 MoE 아키텍처는 여러 개의 작은 Expert 모델을 혼합하여 하나의 모델로 구축함
→ 모델 추론할 때는 특정한 Expert만을 활성화
Transformer Block 안에 DeepSeekMoE가 포함되어 있음
기존 MoE 모델의 문제를 해결한 DeepSeekMoE
① 하나의 Expert에 다양한 종류의 토큰이 배정되어 전문가가 여러 가지 정보를 동시에 학습해야 함
→ 이를 해결하기 위해 전문가를 더 작은 단위로 세분화하여 각 전문가가 보다 특정한 지식에 집중할 수 있도록 설계
② 서로 다른 전문가들이 공통적인 지식을 중복하여 학습하기 때문에 비효율적
→ 일부 전문가를 Shared Expert로 지정하여 항상 활성화시켜 효율적인 학습 구조 생성
③ 특정 전문가에 토큰이 몰리는 현상을 방지하기 위해 Auxiliary Loss를 사용했지만, 성능 저하와 학습 복잡도 증가 유발
→ MoE 모델의 부하 불균형 문제를 완화하고자 Auxiliary-Loss-Free Load Balancing 기법 도입
→ Auxiliary Loss 없이도 부하를 균형있게 조정하도록 각 전문가에 동적 Bias 값을 추가하여 토큰 분배를 자동 조정하는 방식 적용
▶ 불필요한 손실 없이 전문가 활용도를 증가시키고, 계산 자원의 효율성을 극대화할 수 있도록 최적화
Multi-Head Latent Attention (MLA)
DeepSeek-V3의 또다른 핵심 아키텍처 중 하나
추론 시 KV 캐시를 저차원 Latent Vector로 압축하는 방법론
기존 MHA 대비 메모리 사용량을 줄이면서도 성능 저하 없이 효율적 추론이 가능
이렇게 학습된 DeepSeek-V3는 특히 수학, 코드, 논리적 추론 능력에서 뛰어난 결과를 보임
대표적으로 MMLU(75.9), GPQA(59.1), MATH-500(90.2) 등의 점수를 기록하며, 오픈소스 모델 중 최상위권 성능을 보임
추론 성능을 끌어올린 DeepSeek-R1
DeepSeek가 V3 모델을 공개한 지 한 달만에 선보인 모델
R1의 목표는 추론(Reasoning) 능력을 극대화하는 것
기존 LLM은 많은 데이터를 학습해 지식은 방대하지만, 논리적으로 사고하고 문제를 해결하는 능력은 한계가 있었음
특히 수학, 논리, 코딩 같은 분야에서 보다 깊이 있는 사고 과정이 필요
→ 이 성능을 향상시키기 위해 DeepSeek는 V3를 기반으로 강화학습을 적용한 R1을 개발
지도학습(SFT) 중심의 V3와 달리, R1은 논리적인 사고 과정을 스스로 학습함
단순히 정답을 맞히는 것이 아니라, 왜 그렇게 생각하는지, 어떤 단계를 거쳐야 하는지를 강화학습을 통해 터득
R1의 강화학습에는 GRPO(Group Relative Policy Optimization) 기법이 적용
기존 강화학습 방식에서는 별도의 평가 모델(Critic Model)이 필요했는데,
이 모델이 정책 모델(Policy Model)과 동일한 크기를 가져야 했기 때문에 연산 비용이 매우 컸음
* GRPO : 이 문제를 해결하기 위해 그룹 내 상대적 보상(Relatively-ranked Rewards)만을 활용해 최적화를 진행하는 방식
Aha Moment
DeepSeek-R1을 학습하는 과정에서 특정 시점이 지나자,
모델이 갑자기 더 깊이 있게 추론하기 시작하는 흥미로운 현상이 관찰됨
→ 마치 사람이 문제를 고민하다가 갑자기 해결 방법을 깨닫는 순간과 비슷한 개념
연구진은 이 현상을 두고 그들 자신에게도 Aha Moment였고, 강화학습만이 가질 수 있는 정수라고 평가함
실제로 Aha Moment 이후 DeepSeek-R1의 성능은 급격히 향상됨
AIME 2024 테스트에서 Pass@1 점수가 초기 15.6%에서 71.0%로 상승했으며,
다수결(Majority Voting)을 적용하자 86.7%까지 도달
→ 이는 OpenAI o1-0912 수준의 성능과 맞먹는 결과
이렇게 학습된 모델은 다양한 버전으로 HuggingFace에 공개됨
Distill 모델
기존 모델은 671B(실제 활성 파라미터는 37B)이라 개인이 사용하기는 어렵지만,
Distill 모델은 Qwen 기준 32B / Llama 기준 70B 모델로 상대적으로 가볍기 때문
AI 기술력은 미국이 선도하는 듯 했는데, 중국의 AI 기술력이 만만치 않다는 것이 입증되어 흥미로웠다.
한국도 AI 기술 경쟁력을 가지면 좋겠다는 생각을 해본다.
논문 출처
<DeepSeek-V3 Technical Report> (DeepSeek-AI, 2024)
<DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning> (DeepSeek-AI, 2024)
뉴스레터 출처
위클리 딥다이브