Blogs & Articles
>
DeepSeek-R1의 등장, 그럼에도 우리가 놓치지 말아야 하는 것 - Part 1
Blog
February 14, 2025

DeepSeek-R1의 등장, 그럼에도 우리가 놓치지 말아야 하는 것 - Part 1

  • 최근 우리를 놀라게 한 DeepSeek-R1에 대해 2개의 블로그 글로 설명해드립니다.
  • 이번 Part 1에서는 DeepSeek-R1의 등장배경과 모델에 대한 기술적 내용을 담았습니다. 이어지는 Part 2에서는 DeepSeek-R1이 가져온 패러다임의 변화에 대해 설명드릴 예정입니다. 긴 글이지만 2개 글 모두를 읽어보실 것을 추천드립니다.
  • 이 글은 올거나이즈 RAG팀의 조한준 엔지니어님이 작성하셨습니다.

1. AI 사전학습의 한계: 데이터 저작권 문제와 스케일링 법칙의 제약

1.1 Scaling-Law와 사전학습을 통한 LLM의 발전

매년 기학급수적으로 커져온 LLM

대규모 언어 모델(LLM)은 "모델의 크기와 데이터 양을 늘리면 성능이 향상된다"는 스케일링 법칙에 기반하여 발전해왔습니다. 실제로 GPT-4, Gemini, Claude와 같은 최신 모델들은 대규모 데이터와 연산 자원을 활용하여 문장 생성, 번역, 정보 검색 등에서 압도적인 성과를 보였습니다.

예를 들어, GPT-4는 문법 교정, 코드 작성과 같은 작업에서 이전 세대 모델을 훨씬 뛰어넘는 성능을 발휘하며, AI 분야 전반에 걸쳐 혁신적인 변화를 가져왔습니다. 이러한 사례들은 스케일링 법칙이 LLM 발전의 핵심 원리로 작용해 왔음을 잘 보여줍니다.

1.2 스케일링 법칙의 한계와 새로운 도전

그러나 AI 업계는 이제 더 이상 데이터와 연산 자원을 단순히 확장하는 것만으로는 지속적인 성능 향상을 기대하기 어려운 상황에 직면해 있습니다. 고품질 학습 데이터의 부족과 데이터 접근성 제한이 주요 원인으로 지목되고 있으며, 이로 인해 스케일링 법칙의 유효성이 점차 약화되고 있습니다.

1.3 데이터 저작권 문제: 고품질 데이터 부족의 원인

AI 모델의 학습 데이터는 다양성과 품질이 중요하지만, 법적·윤리적 논란이 커지면서 기업과 콘텐츠 제공자들이 데이터를 AI 학습에 제공하는 것을 점점 꺼려하고 있습니다. 이에 따라 AI 기업들은 새로운 고품질 데이터를 확보하는 데 어려움을 겪고 있습니다.

사례

  • 뉴욕타임스 vs. OpenAI: 뉴욕타임스는 자사의 기사를 무단 사용한 혐의로 OpenAI에 저작권 소송을 제기했습니다.
  • Getty Images vs. Stability AI: Stability AI가 이미지 생성 모델에 Getty Images의 저작권 이미지를 무단 사용하여 소송에 휘말렸습니다.
  • Sarah Silverman 등 작가 vs. OpenAI 및 Meta: 여러 작가들이 AI 모델이 자신들의 저작물을 학습에 사용했다고 주장하며 법적 대응에 나섰습니다.

이러한 소송 사례들은 AI 모델이 데이터를 자유롭게 활용하기 어려운 환경에 처해 있음을 보여줍니다. 이는 사전학습 기반 접근법의 지속적인 성능 개선에 큰 제약이 되고 있습니다.

1.4 한계를 마주한 사전학습 전략

고품질 데이터의 부족에 따라서 스케일링 법칙에 기반한 사전학습 기법도 한계에 도달하고 있습니다. AI 모델의 크기와 데이터 양이 증가할수록 성능이 향상되기는 하지만, 그 향상 폭은 점점 줄어들고 있습니다.

전문가 의견

  • 일리야 수츠케버(Ilya Sutskever): OpenAI의 공동 설립자이며, 그는 스케일링 법칙의 한계를 인정하며 새로운 알고리즘 혁신이 필요하다고 강조했습니다.
  • 벤 호로위츠(Ben Horowitz): 실리콘밸리의 벤처 캐피털리스트는 GPU 자원 확장 전략이 더 이상 유효하지 않다고 지적했습니다.

이와 같은 의견들은 AI 모델의 지속적인 발전을 위해 새로운 접근 방식이 필요하다는 점을 시사합니다.

1.5 추론 능력 강화를 통한 성능 향상: DeepSeek-R1

사전학습에 의존한 성능 개선의 한계가 드러나면서, 최근 AI 업계는 추론 능력의 강화를 새로운 대안으로 주목하고 있습니다. 추론을 효율적으로 수행하는 모델은 동일한 크기의 다른 모델들보다 더 나은 성능을 발휘할 수 있으며, 심지어 작은 모델이 더 큰 모델을 능가하는 경우도 나타나고 있습니다.

DeepSeek-R1 사례

중국의 AI 스타트업 DeepSeek는 강화학습과 추론 최적화 기술을 결합한 DeepSeek-R1 모델을 통해 이러한 변화를 입증했습니다. 이 모델은 수학적 추론, 복잡한 문제 해결, 코딩 작업에서 뛰어난 성과를 보이며, AI 산업이 추론 중심으로 전환하고 있음을 보여줍니다.

이와 같은 사례들은 앞으로 AI 모델이 추론 능력을 강화하여 더욱 발전할 것이라는 전망에 힘을 실어주고 있습니다.

학습이 진행될수록 모델이 더욱 오래 생각하고, 더 많은 사고 과정을 거치고 답변

학습이 진행되면서 더 많은 사고과정을 거치고, 정답율도 결국에는 상승

Rag와 LLM을 결합한 최적의 AI 솔루션, Alli를 활용해보세요!

2. DeepSeek-R1 모델

DeepSeek-R1은 중국의 AI 스타트업 딥시크(DeepSeek)가 개발한 최첨단 추론 AI 모델로, 수학, 코딩, 논리적 추론 등 다양한 분야에서 우수한 성능을 보입니다. 이 모델은 6,710억 개의 파라미터를 갖춘 대규모 모델로, 강화 학습을 통해 Chain-of-Thought 탐색 능력, 자기 검증, 반성(reflection) 등 다양한 추론 패턴을 습득하였습니다. DeepSeek-R1은 수학, 코딩, 논리적 추론과 관련된 벤치마크에서 GPT-o1과 유사하거나 능가하는 성능을 보였습니다.

2.1 DeepSeek-R1 아키텍처: MLA & MoE

DeepSeek-R1의 아키텍처는 추론에 최적화되어 있으며, Multi-Latent Attention (MLA)Mixture of Experts (MoE) 구조가 결합되어 있습니다. 이 두 기술은 추론 과정에서 메모리 사용량을 줄이고, 응답 지연 시간을 단축하여 대규모 작업에서도 효율적인 추론을 보장합니다.

DeepSeek-Architecture

1) Multi-Latent Attention (MLA)

현대의 대규모 언어 모델(LLM)은 대부분 트랜스포머(Transformer) 아키텍처에 기반하고 있으며, 이 구조에서 중요한 역할을 하는 것이 Multi-Head Attention (MHA)입니다. MHA는 Query, Key, Value(QKV) 구조를 활용하여 데이터의 복잡한 패턴을 파악합니다.

간단한 예로 도서관을 생각해 보면,

  • Query는 찾고자 하는 책의 주제나 검색어,
  • Key는 책의 제목,
  • Value는 책의 내용이라고 할 수 있습니다.

MHA에서 Query는 계속 변하지만, Key와 Value는 상대적으로 고정된 상태로 남아 있습니다. 이로 인해 LLM은 추론 과정에서 Key-Value (KV) 캐시를 메모리에 저장하고 활용합니다. 하지만, 모델 크기가 커질수록 이 KV 캐시가 비대해져 메모리 사용량과 추론 속도가 크게 저하되는 문제가 발생합니다.

이를 해결하기 위해 딥시크는 Multi-Latent Attention (MLA)을 제안했습니다. MLA는 KV를 더 작은 차원의 잠재 벡터(DKV)로 변환하여 메모리 효율성을 높이고 추론 속도를 개선합니다.

MLA 작동 방식

  1. 차원 축소:
  • 기존 KV를 저차원 벡터로 변환하여 저장 (DKV)

  1. 정보 복원:
  • 저차원으로 축소된 DKV는 정보 손실을 초래하므로, 다시 높은 차원으로 복원하는 과정이 필요 (U * DKV)
  • 복원은 복원 행렬 (U)을 활용해 수행되며, 이 과정에서 성능 최적화가 이루어짐
  • 결과적으로, KV 캐시 (DKV)는 굉장히 작게 유지하면서도 정보의 손실을 최소화할 수 있습니다.

MLA의 장점

  • 메모리 효율성: 기존 MHA 대비 KV 캐시 메모리 사용량이 대폭 감소
  • 추론 속도 향상: 메모리 I/O 부담이 줄어들어 대규모 모델에서도 빠른 추론이 가능

2) Mixture of Experts (MoE)

LLM(대규모 언어 모델) 성능을 높이기 위해 모델을 확장하면 연산 비용과 메모리 사용량이 급증합니다. 특히 기존 방식은 모든 작업에서 전체 파라미터를 항상 활용하여 불필요한 연산이 발생하는 비효율 문제가 있었습니다. 이를 해결하기 위해 Mixture of Experts (MoE) 아키텍처가 도입되었습니다. MoE는 여러 전문가 네트워크(Experts) 중 일부만 선택적으로 활성화하여 작업을 수행하며, 계산 및 메모리 효율성을 극대화하는 구조입니다.

DeepSeekMoE는 기존 MoE 구조에 전문가 특화지식 중복 제거 기능을 추가하여 효율성을 더욱 개선한 아키텍처입니다.

MoE 작동 방식

DeepSeek-MoE

  • 라우터 기반 전문가 선택
    • 각 토큰은 라우터(Router)에 의해 일부 전문가만 선택됨
    • 토큰과 전문가 간 친화도(affinity)를 계산하여 하나 또는 두 개의 전문가에 할당
    • 희소성(sparsity) 유지로 연산 자원 절약

  • 전문가별 Feed-Foward Network (FFN)
    • 활성화된 전문가의 FFN을 통해 토큰 입력값 처리
    • 출력은 각 전문가의 게이트 값과 연산 결과의 가중 합으로 결정

DeepSeekMoE의 추가적 설계

  • Fine-Grained Expert Segmentation
    • 전문가를 더 작은 단위로 세분화하여 특화된 지식 학습
    • 전문가 간 지식 조합 가능성 증가 및 작업 특화 강화

  • Shared Expert Isolation
    • 일부 전문가를 공유 전문가로 설정하여 공통 지식 (= 일반적 지식) 학습
    • 다른 전문가들은 정말로 “전문적인” 지식의 학습에만 집중

MoE의 장점

  • 연산 효율성: 필요한 전문가만 활성화하여 불필요한 연산을 줄여 계산 비용을 절감
  • 메모리 최적화: 활성화된 전문가에만 자원을 집중하여 메모리 사용량을 감소
  • 추론 속도 향상: 활성화된 파라미터 수가 줄어들어 추론 속도가 향상
  • 전문가 특화: 세분화 및 공유 전문가 구조를 통해 다양한 작업에서 전문가들이 각자 특화된 전문적인 지식을 학습

3) MLA와 MoE의 결합

DeepSeek-R1은 MLAMoE를 결합하여 추론 성능을 최적화했습니다. MLA는 메모리 효율성을 높이기 위해 KV 캐시를 저차원으로 변환하고, MoE는 필요한 일부 전문가 네트워크만 선택적으로 활성화하여 추론시 연산 효율을 극대화합니다.

MLA & MoE - Before & After

이를 통해 DeepSeek-R1은 메모리 사용량 절감과 추론 속도 향상을 동시에 달성하며, 대규모 데이터 처리와 작업 환경에서도 높은 확장성과 적응력을 가질 수 있습니다.

GPT와 같은 성능의 LLM을 종량제로 써보세요, 고성능 RAG와 AI Agent까지!

2.2 DeepSeek-R1 학습 전략: 4-Step Post-Training

Post-Training은 Pre-Training과 대비되는 개념으로, 대규모 사전학습 이후에 모델이 사람의 선호도논리적 추론 능력을 추가적으로 학습하는 단계입니다. 위에서 Pre-Training에 의한 모델의 성능향상이 점점 한계를 맞고있다고 언급했는데, 이것에 대한 돌파구로 거론되는 방식입니다.

DeepSeek-R1 모델은 MLA와 MoE 아키텍처를 통해서 이미 사전 학습된 DeepSeek-V3 모델을 기반으로 총 4단계의 Post-Training 전략을 통해 최적화 되었습니다. 각 단계는 모델의 추론 능력과 사용자 친화성을 강화하기 위해 설계되었습니다.

Step 1: Cold Start

목적: 초기 학습에서 Human-Annotated 데이터가 없으면 모델 성능이 불안정하거나 응답이 비일관적일 수 있습니다. 이를 해결하기 위해 소량의 고품질 Cold Start 데이터를 활용해 모델을 미세 조정합니다.

프로세스:

  • 데이터 수집: Few-shot prompting을 통해 장문의 Chain-of-Thought(CoT) 데이터를 확보
  • 데이터 설계: 가독성과 일관성을 높이기 위해 응답 형식을 정리하고, 불필요한 다국어 데이터를 필터링

결과: Cold-start 데이터로 미세 조정된 모델이 초기 강화학습에서 안정적이고 일관된 성능을 발휘했습니다.

Step 2: Reasoning-Oriented Reinforcement Learning (추론 중심 강화학습)

목적: 수학, 코드, 논리 등 추론 중심의 복잡한 작업에서 모델 성능을 향상시키기 위해 강화학습을 수행합니다.

프로세스:

  • 보상 시스템:
    • 정확도 보상 (Accuracy Rewards): 코드의 경우 컴파일러 피드백, 수학 문제의 경우 정답 레이블 기준으로 평가
      • 예를 들어, LeetCode 테스트 케이스를 기준으로 정답 개수에 따라 보상을 부여합니다.
    • 형식 보상 (Format Rewards): 사고 과정(Chain of Thought, CoT)을 명확하게 구조화한 응답에 가산점 부여

  • GRPO 학습 프로세스: GRPO(Group Relative Policy Optimization) 목적 함수를 통해 학습이 이루어지며, A_i(r_i)를 극대화하는 것을 목표로 합니다.

GRPO Objective Function

  • 이 수식은 처음에는 굉장히 복잡해 보일 수 있으나, 사실 간단한 수식입니다. 핵심은 모델이 생성한 결과의 보상(r_i) 을 표준화하여(Advantage A_i) 이를 최대화하는 것입니다. 구체적인 설명은 다음과 같습니다.
    • 정책 보상 r_i: 정책에 대한 보상
      • 예를 들어, 모델이 생성한 코드가 LeetCode 테스트 케이스를 얼마나 맞추는지 생각하시면 됩니다.
    • A_i: 현재 보상 (r_i)이 그룹 내 다른 보상 값들과 비교했을 때 얼마나 우월한지를 나타내는 지표
      • 그룹 내 평균 보상보다 높은 경우 A_i가 양수가 되며, 이는 정책이 해당 행동(o_i)을 더 자주 선택하도록 유도합니다. 계산 방식은 다음과 같습니다.
    • 정책 업데이트: A_i 값을 최대화하는 방향으로 정책을 최적화
      • 특정 행동(o_i)에 대해 현재 정책이 과거 정책보다 해당 행동을 선택할 확률이 높아지면 A_i가 더 커지고, 이를 통해 정책이 점진적으로 개선됩니다.
    • 안전장치: 학습이 불안정해지는 것을 방지하기 위해 두 가지 제약 조건을 둡니다.
      • Clipping:
        현재 정책이 과거 정책에서 너무 급격하게 변화하지 않도록 제한합니다. 예를 들어, 새로운 정책이 기존 정책보다 특정 행동을 과도하게 우선시하는 것을 막습니다.
      • KL Divergence 페널티:
        현재 정책이 참조 정책(ref policy)과 지나치게 다른 분포를 가지지 않도록 KL Divergence를 측정하여 페널티를 부여합니다. 이로 인해 정책이 서서히 변화하면서 안정적인 학습이 이루어집니다.

GRPO(Group Relative Policy Optimization) 장점

  • 훈련 비용 절감: critic 모델을 제거하여 연산 비용과 메모리 사용량을 크게 줄입니다.
  • 효율적인 그룹 기반 보상 평가: 그룹 내 여러 샘플을 통해 상대적인 보상 차이를 계산하여 정책을 최적화합니다.
  • 샘플 효율성 증가: 한 에피소드에서 그룹 단위로 샘플들을 활용하여 정책을 최적화하기 때문에 샘플 사용 효율이 높아집니다.

결과: 복잡한 추론 작업에서 높은 성능을 달성했습니다.

Step 3: Rejection Sampling & Supervised Fine-Tuning (SFT)

목적: 강화학습 이후에도 모델의 다양한 능력을 강화하기 위해 추가적으로 지도학습을 수행합니다.

프로세스:

  • Reasoning Data: Step-2에서 학습된 모델로 Rejection Sampling을 통해 새로운 데이터 60만 건 생성
  • Non-reasoning Data: 번역, 요약 등 비추론 작업에 필요한 데이터 20만 건 추가 수집
  • Fine-Tuning: 약 80만 개의 데이터를 활용해 모델을 2 epochs 동안 미세 조정

결과: 모델이 다양한 작업에서 더욱 균형 잡힌 성능을 발휘하게 되었습니다.

Step 4: Reinforcement Learning for All Scenarios (범용 강화학습)

목적: 모델이 다양한 작업사용자 선호에 부합하도록 유용성과 무해성을 동시에 개선합니다.

프로세스:

  • Reasoning Data: 수학, 코드 작업에서 Rule-Based 보상을 적용해 학습 (Step-2와 동일)
  • General Data: 선호 쌍(preference pairs)을 활용해 복잡한 시나리오에 적응

평가 지표:

  • 유용성: 응답의 관련성과 가치를 평가
  • 무해성: 응답에 잠재적 위험이나 편향이 없는지 평가

결과: 모델이 다양한 데이터 분포에 적응하며 사용자 친화적이고 안전한 응답을 제공하게 되었습니다.

2.3 DeepSeek-R1 성능

DeepSeek-R1 모델은 MLA와 MoE 구조를 기반으로 한 4단계 Post-Training 전략을 통해 성능을 극대화하였으며, 다양한 벤치마크에서 GPT-o1을 비롯한 경쟁 모델들과 비교해 비등하거나 높은 성능을 기록했습니다. 특히 수학에서 강력한 결과를 나타냈으며, 이는 대규모 강화학습과 보상 최적화의 효과를 보여줍니다.

(DeepSeek-R1으로 인한 패러다임의 변화는 다음 블로그 글에서 계속됩니다.)

우리 회사에 최고 성능의 LLM을 도입하고 싶다면 올거나이즈에 문의하세요!