대규모 언어 모델(LLM)은 "모델의 크기와 데이터 양을 늘리면 성능이 향상된다"는 스케일링 법칙에 기반하여 발전해왔습니다. 실제로 GPT-4, Gemini, Claude와 같은 최신 모델들은 대규모 데이터와 연산 자원을 활용하여 문장 생성, 번역, 정보 검색 등에서 압도적인 성과를 보였습니다.
예를 들어, GPT-4는 문법 교정, 코드 작성과 같은 작업에서 이전 세대 모델을 훨씬 뛰어넘는 성능을 발휘하며, AI 분야 전반에 걸쳐 혁신적인 변화를 가져왔습니다. 이러한 사례들은 스케일링 법칙이 LLM 발전의 핵심 원리로 작용해 왔음을 잘 보여줍니다.
그러나 AI 업계는 이제 더 이상 데이터와 연산 자원을 단순히 확장하는 것만으로는 지속적인 성능 향상을 기대하기 어려운 상황에 직면해 있습니다. 고품질 학습 데이터의 부족과 데이터 접근성 제한이 주요 원인으로 지목되고 있으며, 이로 인해 스케일링 법칙의 유효성이 점차 약화되고 있습니다.
AI 모델의 학습 데이터는 다양성과 품질이 중요하지만, 법적·윤리적 논란이 커지면서 기업과 콘텐츠 제공자들이 데이터를 AI 학습에 제공하는 것을 점점 꺼려하고 있습니다. 이에 따라 AI 기업들은 새로운 고품질 데이터를 확보하는 데 어려움을 겪고 있습니다.
사례
이러한 소송 사례들은 AI 모델이 데이터를 자유롭게 활용하기 어려운 환경에 처해 있음을 보여줍니다. 이는 사전학습 기반 접근법의 지속적인 성능 개선에 큰 제약이 되고 있습니다.
고품질 데이터의 부족에 따라서 스케일링 법칙에 기반한 사전학습 기법도 한계에 도달하고 있습니다. AI 모델의 크기와 데이터 양이 증가할수록 성능이 향상되기는 하지만, 그 향상 폭은 점점 줄어들고 있습니다.
전문가 의견
이와 같은 의견들은 AI 모델의 지속적인 발전을 위해 새로운 접근 방식이 필요하다는 점을 시사합니다.
사전학습에 의존한 성능 개선의 한계가 드러나면서, 최근 AI 업계는 추론 능력의 강화를 새로운 대안으로 주목하고 있습니다. 추론을 효율적으로 수행하는 모델은 동일한 크기의 다른 모델들보다 더 나은 성능을 발휘할 수 있으며, 심지어 작은 모델이 더 큰 모델을 능가하는 경우도 나타나고 있습니다.
DeepSeek-R1 사례
중국의 AI 스타트업 DeepSeek는 강화학습과 추론 최적화 기술을 결합한 DeepSeek-R1 모델을 통해 이러한 변화를 입증했습니다. 이 모델은 수학적 추론, 복잡한 문제 해결, 코딩 작업에서 뛰어난 성과를 보이며, AI 산업이 추론 중심으로 전환하고 있음을 보여줍니다.
이와 같은 사례들은 앞으로 AI 모델이 추론 능력을 강화하여 더욱 발전할 것이라는 전망에 힘을 실어주고 있습니다.
Rag와 LLM을 결합한 최적의 AI 솔루션, Alli를 활용해보세요!
DeepSeek-R1은 중국의 AI 스타트업 딥시크(DeepSeek)가 개발한 최첨단 추론 AI 모델로, 수학, 코딩, 논리적 추론 등 다양한 분야에서 우수한 성능을 보입니다. 이 모델은 6,710억 개의 파라미터를 갖춘 대규모 모델로, 강화 학습을 통해 Chain-of-Thought 탐색 능력, 자기 검증, 반성(reflection) 등 다양한 추론 패턴을 습득하였습니다. DeepSeek-R1은 수학, 코딩, 논리적 추론과 관련된 벤치마크에서 GPT-o1과 유사하거나 능가하는 성능을 보였습니다.
DeepSeek-R1의 아키텍처는 추론에 최적화되어 있으며, Multi-Latent Attention (MLA)와 Mixture of Experts (MoE) 구조가 결합되어 있습니다. 이 두 기술은 추론 과정에서 메모리 사용량을 줄이고, 응답 지연 시간을 단축하여 대규모 작업에서도 효율적인 추론을 보장합니다.
현대의 대규모 언어 모델(LLM)은 대부분 트랜스포머(Transformer) 아키텍처에 기반하고 있으며, 이 구조에서 중요한 역할을 하는 것이 Multi-Head Attention (MHA)입니다. MHA는 Query, Key, Value(QKV) 구조를 활용하여 데이터의 복잡한 패턴을 파악합니다.
간단한 예로 도서관을 생각해 보면,
MHA에서 Query는 계속 변하지만, Key와 Value는 상대적으로 고정된 상태로 남아 있습니다. 이로 인해 LLM은 추론 과정에서 Key-Value (KV) 캐시를 메모리에 저장하고 활용합니다. 하지만, 모델 크기가 커질수록 이 KV 캐시가 비대해져 메모리 사용량과 추론 속도가 크게 저하되는 문제가 발생합니다.
이를 해결하기 위해 딥시크는 Multi-Latent Attention (MLA)을 제안했습니다. MLA는 KV를 더 작은 차원의 잠재 벡터(DKV)로 변환하여 메모리 효율성을 높이고 추론 속도를 개선합니다.
MLA 작동 방식
MLA의 장점
LLM(대규모 언어 모델) 성능을 높이기 위해 모델을 확장하면 연산 비용과 메모리 사용량이 급증합니다. 특히 기존 방식은 모든 작업에서 전체 파라미터를 항상 활용하여 불필요한 연산이 발생하는 비효율 문제가 있었습니다. 이를 해결하기 위해 Mixture of Experts (MoE) 아키텍처가 도입되었습니다. MoE는 여러 전문가 네트워크(Experts) 중 일부만 선택적으로 활성화하여 작업을 수행하며, 계산 및 메모리 효율성을 극대화하는 구조입니다.
DeepSeekMoE는 기존 MoE 구조에 전문가 특화와 지식 중복 제거 기능을 추가하여 효율성을 더욱 개선한 아키텍처입니다.
MoE 작동 방식
DeepSeekMoE의 추가적 설계
MoE의 장점
DeepSeek-R1은 MLA와 MoE를 결합하여 추론 성능을 최적화했습니다. MLA는 메모리 효율성을 높이기 위해 KV 캐시를 저차원으로 변환하고, MoE는 필요한 일부 전문가 네트워크만 선택적으로 활성화하여 추론시 연산 효율을 극대화합니다.
이를 통해 DeepSeek-R1은 메모리 사용량 절감과 추론 속도 향상을 동시에 달성하며, 대규모 데이터 처리와 작업 환경에서도 높은 확장성과 적응력을 가질 수 있습니다.
GPT와 같은 성능의 LLM을 종량제로 써보세요, 고성능 RAG와 AI Agent까지!
Post-Training은 Pre-Training과 대비되는 개념으로, 대규모 사전학습 이후에 모델이 사람의 선호도나 논리적 추론 능력을 추가적으로 학습하는 단계입니다. 위에서 Pre-Training에 의한 모델의 성능향상이 점점 한계를 맞고있다고 언급했는데, 이것에 대한 돌파구로 거론되는 방식입니다.
DeepSeek-R1 모델은 MLA와 MoE 아키텍처를 통해서 이미 사전 학습된 DeepSeek-V3 모델을 기반으로 총 4단계의 Post-Training 전략을 통해 최적화 되었습니다. 각 단계는 모델의 추론 능력과 사용자 친화성을 강화하기 위해 설계되었습니다.
목적: 초기 학습에서 Human-Annotated 데이터가 없으면 모델 성능이 불안정하거나 응답이 비일관적일 수 있습니다. 이를 해결하기 위해 소량의 고품질 Cold Start 데이터를 활용해 모델을 미세 조정합니다.
프로세스:
결과: Cold-start 데이터로 미세 조정된 모델이 초기 강화학습에서 안정적이고 일관된 성능을 발휘했습니다.
목적: 수학, 코드, 논리 등 추론 중심의 복잡한 작업에서 모델 성능을 향상시키기 위해 강화학습을 수행합니다.
프로세스:
GRPO(Group Relative Policy Optimization) 장점
결과: 복잡한 추론 작업에서 높은 성능을 달성했습니다.
목적: 강화학습 이후에도 모델의 다양한 능력을 강화하기 위해 추가적으로 지도학습을 수행합니다.
프로세스:
결과: 모델이 다양한 작업에서 더욱 균형 잡힌 성능을 발휘하게 되었습니다.
목적: 모델이 다양한 작업과 사용자 선호에 부합하도록 유용성과 무해성을 동시에 개선합니다.
프로세스:
평가 지표:
결과: 모델이 다양한 데이터 분포에 적응하며 사용자 친화적이고 안전한 응답을 제공하게 되었습니다.
DeepSeek-R1 모델은 MLA와 MoE 구조를 기반으로 한 4단계 Post-Training 전략을 통해 성능을 극대화하였으며, 다양한 벤치마크에서 GPT-o1을 비롯한 경쟁 모델들과 비교해 비등하거나 높은 성능을 기록했습니다. 특히 수학에서 강력한 결과를 나타냈으며, 이는 대규모 강화학습과 보상 최적화의 효과를 보여줍니다.
(DeepSeek-R1으로 인한 패러다임의 변화는 다음 블로그 글에서 계속됩니다.)
우리 회사에 최고 성능의 LLM을 도입하고 싶다면 올거나이즈에 문의하세요!