article, news, papers/AI, 데이터분석

Deepseek 원리와 특징

toraa 2025. 2. 5. 16:16

 

 

DeepSeek Shock 2025

중국 AI 스타트업 DeepSeek가 OpenAI의 o1 모델의 성능을 능가하는 DeepSeek-R1 모델 오픈 소스로 공개

NVIDIA 주가 급락

 

 

✓ 이 모델의 특별한 점

: 모델 개발 비용을 압도적으로 절감

 

DeepSeek에 따르면 모델을 개발하는 데 비용이 고작 80억 원

사실이라면 Meta의 Llama의 10분의 1, OpenAI의 ChatGPT에 비해 18분의 1 수준

DeepSeek-V3를 개발하는 데 든 비용 출처: <DeepSeek-V3 Technical Report> (DeepSeek-AI, 2024)

 

DeepSeek가 비용을 절감할 수 있었던 이유 중 하나는 보급형 GPU를 사용했기 때문

GPU 시장을 장악하고 있는 NVIDIA가 직격타를 맞은 것

 

 

요약

모델을 경량화하고, 저렴한 GPU에서 학습하였으며, DeepSeek의 모델은 오픈 소스(Open Weight)로 공개됨

 

 

✓ 의혹

하지만 많은 전문가들은 비용을 과소 추정했을 것이라고 분석

반도체 연구·컨설팅 기업 세미애널리시스는 실제 추정 비용이 약 90배는 더 비쌀 것이라고 추정

DeepSeek가 밝힌 비용은 단순히 시간당 2달러 기준으로 2개월 빌렸을 때를 가정한 것

(연구 비용, 데이터 처리 비용 등은 미포함)

 

이번 사태로 NVIDIA에 위기가 찾아온 것처럼 보이기도 하지만,

DeepSeek를 학습할 때 사용한 GPU 역시 NVIDIA의 H800 모델

 

결과적으로 NVIDIA의 보급형 GPU로 엄청난 모델을 개발했는데 NVIDIA의 주가가 떨어진 것

사실, NVIDIA의 GPU를 쓰지 않는 경우는 거의 없음

이런 논란과 무관하게 DeepSeek가 국제 사회에 미친 파급력은 엄청남


DeepSeek-V3

작년 12월 말에 발표된 모델로, MoE(Mixture of Expert) 아키텍처를 적용한 LLM

이번에 발표한 모델은 DeepSeek-V3 모델을 기반으로 강화학습을 통해 추론 성능을 향상시킨 모델

 

일반적으로 MoE 아키텍처는 여러 개의 작은 Expert 모델을 혼합하여 하나의 모델로 구축함

모델 추론할 때는 특정한 Expert만을 활성화

DeepSeek-V3의 학습 구조 출처: <DeepSeek-V3 Technical Report> (DeepSeek-AI, 2024)

 

 

Transformer Block 안에 DeepSeekMoE가 포함되어 있음

 

 

기존 MoE 모델의 문제를 해결한 DeepSeekMoE

 

하나의 Expert에 다양한 종류의 토큰이 배정되어 전문가가 여러 가지 정보를 동시에 학습해야 함

  이를 해결하기 위해 전문가를 더 작은 단위로 세분화하여 각 전문가가 보다 특정한 지식에 집중할 수 있도록 설계

 

서로 다른 전문가들이 공통적인 지식을 중복하여 학습하기 때문에 비효율적

  일부 전문가를 Shared Expert로 지정하여 항상 활성화시켜 효율적인 학습 구조 생성

 

특정 전문가에 토큰이 몰리는 현상을 방지하기 위해 Auxiliary Loss를 사용했지만, 성능 저하와 학습 복잡도 증가 유발

  MoE 모델의 부하 불균형 문제를 완화하고자 Auxiliary-Loss-Free Load Balancing 기법 도입

  Auxiliary Loss 없이도 부하를 균형있게 조정하도록 각 전문가에 동적 Bias 값을 추가하여 토큰 분배를 자동 조정하는 방식 적용

▶ 불필요한 손실 없이 전문가 활용도를 증가시키고, 계산 자원의 효율성을 극대화할 수 있도록 최적화

 

 

Multi-Head Latent Attention (MLA)

DeepSeek-V3의 또다른 핵심 아키텍처 중 하나

추론 시 KV 캐시를 저차원 Latent Vector로 압축하는 방법론

기존 MHA 대비 메모리 사용량을 줄이면서도 성능 저하 없이 효율적 추론이 가능

 

 

DeepSeek-V3 모델의 성능 비교 출처: <DeepSeek-V3 Technical Report> (DeepSeek-AI, 2024)

 

이렇게 학습된 DeepSeek-V3는 특히 수학, 코드, 논리적 추론 능력에서 뛰어난 결과를 보임

대표적으로 MMLU(75.9), GPQA(59.1), MATH-500(90.2) 등의 점수를 기록하며, 오픈소스 모델 중 최상위권 성능을 보임

 

 

추론 성능을 끌어올린 DeepSeek-R1

DeepSeek가 V3 모델을 공개한 지 한 달만에 선보인 모델

R1의 목표는 추론(Reasoning) 능력을 극대화하는 것

 

기존 LLM은 많은 데이터를 학습해 지식은 방대하지만, 논리적으로 사고하고 문제를 해결하는 능력은 한계가 있었음

특히 수학, 논리, 코딩 같은 분야에서 보다 깊이 있는 사고 과정이 필요

이 성능을 향상시키기 위해 DeepSeek는 V3를 기반으로 강화학습을 적용한 R1을 개발

 

지도학습(SFT) 중심의 V3와 달리, R1은 논리적인 사고 과정을 스스로 학습함

단순히 정답을 맞히는 것이 아니라, 왜 그렇게 생각하는지, 어떤 단계를 거쳐야 하는지를 강화학습을 통해 터득

 

R1의 강화학습에는 GRPO(Group Relative Policy Optimization) 기법이 적용

기존 강화학습 방식에서는 별도의 평가 모델(Critic Model)이 필요했는데,

이 모델이 정책 모델(Policy Model)과 동일한 크기를 가져야 했기 때문에 연산 비용이 매우 컸음

 

* GRPO : 이 문제를 해결하기 위해 그룹 내 상대적 보상(Relatively-ranked Rewards)만을 활용해 최적화를 진행하는 방식

 

DeepSeek-R1이 보여준 Aha Moment 출처: <DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning> (DeepSeek-AI, 2024)

 

Aha Moment

DeepSeek-R1을 학습하는 과정에서 특정 시점이 지나자,

모델이 갑자기 더 깊이 있게 추론하기 시작하는 흥미로운 현상이 관찰됨

마치 사람이 문제를 고민하다가 갑자기 해결 방법을 깨닫는 순간과 비슷한 개념

 

연구진은 이 현상을 두고 그들 자신에게도 Aha Moment였고, 강화학습만이 가질 수 있는 정수라고 평가함

 

OpenAI o1의 성능을 넘어선 DeepSeek-R1 출처: <DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning> (DeepSeek-AI, 2024)

실제로 Aha Moment 이후 DeepSeek-R1의 성능은 급격히 향상됨

 

 AIME 2024 테스트에서 Pass@1 점수가 초기 15.6%에서 71.0%로 상승했으며,

다수결(Majority Voting)을 적용하자 86.7%까지 도달

이는 OpenAI o1-0912 수준의 성능과 맞먹는 결과

 

eepSeek-V3부터 다양한 버전의 DeepSeek-R1 모델로 이어지는 로드맵 출처: X @SirrahChan

 

이렇게 학습된 모델은 다양한 버전으로 HuggingFace에 공개됨

 

Distill 모델 

기존 모델은 671B(실제 활성 파라미터는 37B)이라 개인이 사용하기는 어렵지만,

Distill 모델은 Qwen 기준 32B / Llama 기준 70B 모델로 상대적으로 가볍기 때문


 

AI  기술력은 미국이 선도하는 듯 했는데, 중국의 AI 기술력이 만만치 않다는 것이 입증되어 흥미로웠다.

한국도 AI 기술 경쟁력을 가지면 좋겠다는 생각을 해본다.

 

 

 

논문 출처

<DeepSeek-V3 Technical Report> (DeepSeek-AI, 2024)

<DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning> (DeepSeek-AI, 2024)

 

뉴스레터 출처

위클리 딥다이브