2025. 03. 19
이 아티클을 읽기 전에, 이전 글을 먼저 읽어주세요 😊
1. GPT급 AI, 스타트업도 도전 가능하게 한 ‘딥시크’ 오픈소스?
중국의 딥시크-R1이 오픈소스로 공개되며, 스타트업과 일반 개발자들의 AI 시장 진입 접근성이 높아졌습니다.
2. ChatGPT 따라잡은 Deepseek-R1 의 핵심 전략은?
딥시크 연구팀은 GPT-4 수준의 성능을 95% 저렴한 비용으로 구현해내기 위해 강화학습, 증류 등 성능 최적화 학습법을 사용했습니다.
바로 AI '딥시크-R1 교육세션' 중 발췌한 내용입니다.
🔎 딥시크는 왜 ‘강화학습’을 선택했을까?
연구팀은 딥시크가 더욱 논리적인 사고를 할 수 있도록 CoT 추론을 도입하고자 했습니다.
딥시크가 왜 강화학습을 선택했는지를 이해하기 위해서는 먼저 CoT(Chain-of-Thought) 추론 프로세스를 살펴볼 필요가 있습니다. CoT란, AI 모델이 문제를 해결할 때 논리적인 추론 과정을 단계별로 거치도록 유도하는 기법입니다.

일반적인 AI 모델이 입력을 받으면 바로 출력을 생성하는 것과 달리, CoT는 중간 단계의 사고 과정을 강조합니다. 이를 통해 논리적 사고 능력이 향상되며, 수학, 코딩, 과학적 추론, 복잡한 문서 작성 등에서 뛰어난 성능을 보입니다.
그러나 논리적 사고 능력은 향상되었지만, 여전히 추론과정에서 중요한 또다른 과제는 해결되지 않은 상태였습니다. 입력 데이터의 복잡성에 따라 모델이 연산량을 동적으로 조절할 수 있게 해주는 테스트 시간 확장(Test-Time Scaling)이 안정적인 작동하지 않은 것이 문제였죠.
딥시크 연구팀은 이 문제를 해결하기 위해 새로운 접근법을 시도했습니다.
수많은 시행착오 끝에 찾아낸 ‘최적의 학습 방법’
첫 번째 시도,
프로세스 기반 보상 모델 - ❌
프로세스 기반 보상 모델이란, 모델이 단계별 추론 과정을 거칠 때 그 추론 과정의 적절성을 평가하고 성능을 개선하는 방식입니다. 하지만 효과적인 방법으로 평가되지 않아 기각되었습니다.
두 번째 시도,
탐색 알고리즘 - ✔️?
탐색 알고리즘(Search Algorithms)이란, 여러 추론 경로를 탐색해 최적의 결과를 찾아내는 방식입니다. 특히 구글 알파고가 체스나 바둑 같은 게임에서 정답을 찾을 때 사용한 기법인 몬테카를로 트리 탐색(Monte Carlo Tree Search) 알고리즘을 적용하기도 했습니다.

하지만 정답이 명확한 게임과 달리, 딥시크같은 LLM은 주관적인 요소도 고려해야 하기 때문에 적절하지 않다고 판단되어 제외되었습니다. ❌
세 번째 시도,
강화 학습 (Reinforcement Learning, RL)
강화학습이란, 모델이 특정 행동을 수행할 때 그 결과에 따라 보상(reward)을 제공하는 방식입니다. 보상을 극대화하는 방향으로 최적의 정책(Policy)을 학습하는거죠.
💡 강화 학습의 ‘보상’은 이렇게 작동합니다.
지도 학습은 “이렇게 해야 높은 점수를 받을 수 있다”라고 정답을 알려주지만, 강화 학습에서는 그런 명확한 지침이 주어지지 않습니다. 강화 학습에서는 특정 행동이 목표에 도달하는 데 얼마나 좋은지, 얼마나 나쁜지 보상을 통해 평가하기 때문에, 수많은 시행착오를 거치며 스스로 학습하게 됩니다.
예를 들어, 자전거를 배운다고 가정해 보겠습니다. 처음에는 페달을 밟는 강도나 횟수를 다르게 해 보고, 핸들을 이리저리 돌려 보면서 다양한 시도를 하게 됩니다. 아무런 요령이 없을 때는 여러 번 넘어지겠지만, 시행착오 끝에 우연히 이전보다 더 먼 거리를 가는 데 성공할 수도 있습니다. 반대로, 금방 넘어지는 경우도 있겠죠. 이 과정에서 방금 했던 행동이 효과적이었는지를 판단하고, 이후에는 좋은 행동을 강화하며, 효과가 없는 행동은 줄여 가면서 최적의 전략을 학습하는 것이 강화 학습의 원리입니다.
전통적인 강화학습은 새로운 행동을 통해 더 나은 보상을 찾아내는 탐색(Exploration)과 현재까지 학습된 정보 중 가장 높은 보상을 준 행동을 반복하는 활용(Exploitation)의 균형을 맞추면서 최적의 전략을 찾는 과정이 포함되었습니다. 그러나 DeepSeek는 탐색(Exploration)을 최소화하고, 활용(Exploitation)을 우선적으로 활용하는 방식을 채택했습니다.

쉽게 말하자면 기존 강화학습이 모든 가능성을 실험적으로 탐색하는 것과 달리, DeepSeek는 이미 검증된 우수한 행동 방식을 사용하는 것입니다. 불필요한 탐색을 줄이고, 고품질 데이터 샘플만을 선택적으로 학습하여 샘플 효율성(Sample Efficiency)을 높이는 것이죠.
이처럼 DeepSeek는 최적화된 강화학습 알고리즘으로 다른 강화학습보다 훨씬 적은 데이터와 학습 시간, 낮은 비용으로 높은 성능을 달성했습니다. 그래서 딥시크 연구팀은 새로운 딥시크 모델 개발에 강화학습을 선택했습니다.
강화 학습을 중심으로 성능을 높인 LLM 모델의 가능성

DeepSeek-R1-Zero 모델은 AIME 2024 기준으로 초기 pass@1 성능은 15.6%였으나, RL 학습 후 71.0%로 크게 향상되었습니다. 실험 결과, 강화 학습이 모델의 성과를 효과적으로 개선한다는 점이 확인되었습니다.
또한, 다수결(Majority Voting)을 적용한 결과 성능이 86.7%까지 올라가면서 OpenAI-o1-0912와 동급의 성능을 보였습니다.
다수결 테스트 방식은 다음과 같습니다. 예를 들어, "2 더하기 2는?"이라는 질문을 LLM 모델이 여러 번 응답하도록 합니다. 이때 생성된 답변이 4, 4, 5, 8, 3이라면, 가장 많이 등장한 4가 정답으로 채택되는 방식입니다. 딥시크는 이러한 접근법을 통해 모델의 정답률을 더욱 높일 수 있습니다.
다단계 학습 과정(Multi-Stage Training)
기존 강화학습은 탐색(Exploration)과 활용(Exploitation)의 균형을 통해 최적의 전략을 찾습니다. 하지만 DeepSeek는 다국어 환경에서도 강력한 성능을 갖춘 대중용 AI 모델을 목표로 하였기 때문에, 다국어 처리에서 발생하는 가독성 문제와 언어 간 혼합 문제를 해결해야 했습니다. 이를 위해 적용된 것이 바로 다단계 학습(Multi-Stage Training)입니다.
DeepSeek-R1의 다단계 학습 과정은 다음과 같습니다:
- 초기 지도 학습 (Initial Supervised Fine-Tuning, SFT)
- 초반에는 충분한 훈련 데이터가 없기 때문에, 제한된 데이터를 활용하여 우선 지도학습(Supervised Fine-Tuning)을 진행합니다.
- 추론 중심의 강화 학습 (Reasoning-Oriented RL)
- 추론 능력을 향상시키기 위해 DeepSeek-R1-Zero 모델의 학습 방식과 동일한 추론 중심의 강화학습을 적용합니다.
- 답변 샘플링 (Rejection Sampling) 및 추가 지도 학습(SFT)
- 강화학습으로 얻은 결과에서 품질 기준을 만족하는 샘플만 선택하고, 부적합한 샘플은 버리는 답변 샘플링(Rejection Sampling)을 진행합니다.
- 이렇게 선별된 양질의 데이터를 활용하여 추가 지도 학습(SFT)을 진행하며, 기존 DeepSeek 가 자체 구축한 지도 학습 데이터와 결합하여 모델 성능을 한층 더 끌어올립니다.
- 최종 튜닝 (Final Tuning)
- 위 과정을 통해 얻어진 데이터를 기반으로 다시 한번 강화학습 또는 지도 학습을 수행하여 모델의 성능을 최적화하고, 오픈AI 최신 모델과 경쟁 가능한 수준으로 발전시킵니다.
이러한 과정을 통해 DeepSeek-R1은 다국어 환경에서도 뛰어난 추론 능력과 언어적 일관성을 갖춘, 대중적으로 사용할 수 있는 AI 모델로 발전할 수 있었습니다.
🏋️♀️DeepSeek-R1 의 앞으로의 방향성
딥시크가 더욱 나은 AI가 되기 위해서는 개선해야 할 사항으로 크게 네 가지를 꼽을 수 있습니다.
- 일반적인 능력 강화
현재 DeepSeek-R1은 DeepSeek-V3에 비해 함수를 실행시키는 명령어인 함수 호출(Function Calling), 사용자와 AI가 대화를 통해 더 많은 정보를 교환하는 상호작용인 멀티턴 대화(Multi-turn), 데이터를 저장·전송할 때 많이 사용되는 경량의 데이터 교환형식인 JSON 출력(JSON Output) 등의 측면에서 부족한 모습을 보입니다. 이를 개선하기 위해 장기적인 CoT 활용 연구를 진행하며, 복잡한 태스크 수행 능력을 향상시키는 방향으로 발전해야 합니다. - 언어 혼합(Language Mixing)
문제 해결 현재 DeepSeek-R1은 중국어와 영어에 최적화되어 있으며, 다른 언어의 질의를 받을 경우 영어로 추론하고 응답하는 경향이 있습니다. 이를 해결하기 위해 다국어 환경에서도 보다 자연스러운 응답을 생성할 수 있도록 모델을 개선해야 합니다. - 프롬프트 엔지니어링(Prompt Engineering) 최적화
DeepSeek-R1은 프롬프트에 민감하게 반응하며,모델에게 정확하고 구조화된 출력을 생성하게 유도하는 퓨샷 프롬프팅(Few-Shot Prompting)이 성능 저하를 유발하는 경향이 있습니다. 따라서 모델이 이전에 학습한 일반적인 지식만을 활용하여 새로운 작업을 수행하는 방법인 제로샷 프롬프팅(Zero-shot prompting)을 활용하여 프롬프트에 대한 민감도를 줄이고 보다 안정적인 성능을 보일 수 있도록 최적화를 진행해야 합니다. - 소프트웨어 엔지니어링 태스크 최적화
현재 소프트웨어 엔지니어링 관련 태스크의 평가 시간이 길어 강화 학습(RL) 효율성이 낮으며, 대규모 RL이 충분히 적용되지 않아 DeepSeek-R1이 DeepSeek-V3 대비 큰 성능 향상을 보이지 못하고 있습니다. 이를 개선하기 위해 소프트웨어 엔지니어링 데이터를 대상으로 특정 확률 분포에서 무작위로 만들어진 수열을 생성하는 방법인 기각 샘플링(Rejection Sampling)과 현재 실행중인 작업을 종료하지 않아도 다음 작업을 곧바로 실행하는 방식인 비동기 평가(Asynchronous Evaluation)를 도입해 RL 과정의 효율성을 높이는 방향으로 연구가 필요합니다.
🤞 개발자·창업가가 가질 수 있는 질문들
DeepSeek가 기존의 모델들을 뒤흔들 만큼 혁신적인 성과를 보여주고 있는 가운데, 오픈소스로 출시된 딥시크는 개발자와 스타트업에게도 새로운 기회를 제공할 가능성이 큽니다. 아직 진입 장벽이 높은 편이지만, 딥시크의 등장으로 이러한 장벽이 점점 낮아질 것으로 보입니다. 특히 GPU 사용량이 줄어들면서 비용 부담 없이 AI 애플리케이션을 개발할 수 있는 환경이 조성되고 있으며, 리소스 최적화 측면에서도 강점이 있습니다.
또, 중국이 강점으로 삼는 전략 중 하나가 빠른 Copy & Paste입니다. 많은 사람이 이를 부정적으로 평가하고, 단순한 모방은 효과적인 전략이 아니라고 생각합니다. 하지만 이번 사례는 이러한 전략을 제대로 활용할 경우 강력한 결과를 만들어낼 수 있다는 점을 보여주었습니다.
이런 변화 속에서 한국의 개발자와 창업가들은 몇 가지 질문을 던져볼 필요가 있습니다. 예를 들어, 한국은 여기에서 어떤 점을 본받고 배워야 할까? 우리가 더 나아질 수 있는 방향은 무엇일까? 창업가로서 어떤 마인드셋을 가져야 할까? 한국의 스타트업 생태계는 어떤 방향으로 발전해야 할까? 실리콘밸리나 중국의 스타트업 생태계에서 참고할 만한 전략은 무엇일까? 등의 질문이 있을 수 있죠. 한국의 AI 기업들은 앞으로 어떤 방향으로 나아가야 할지 고민해야 합니다. 경쟁력을 확보하기 위해 필요한 전략과 차별화된 접근 방식에 대한 연구가 더욱 중요해질 것입니다.

Website | YouTube | Disquiet
Editor : Joen
2025. 03. 19
이 아티클을 읽기 전에, 이전 글을 먼저 읽어주세요 😊
1. GPT급 AI, 스타트업도 도전 가능하게 한 ‘딥시크’ 오픈소스?
중국의 딥시크-R1이 오픈소스로 공개되며, 스타트업과 일반 개발자들의 AI 시장 진입 접근성이 높아졌습니다.
2. ChatGPT 따라잡은 Deepseek-R1 의 핵심 전략은?
딥시크 연구팀은 GPT-4 수준의 성능을 95% 저렴한 비용으로 구현해내기 위해 강화학습, 증류 등 성능 최적화 학습법을 사용했습니다.
바로 AI '딥시크-R1 교육세션' 중 발췌한 내용입니다.
🔎 딥시크는 왜 ‘강화학습’을 선택했을까?
연구팀은 딥시크가 더욱 논리적인 사고를 할 수 있도록 CoT 추론을 도입하고자 했습니다.
딥시크가 왜 강화학습을 선택했는지를 이해하기 위해서는 먼저 CoT(Chain-of-Thought) 추론 프로세스를 살펴볼 필요가 있습니다. CoT란, AI 모델이 문제를 해결할 때 논리적인 추론 과정을 단계별로 거치도록 유도하는 기법입니다.
일반적인 AI 모델이 입력을 받으면 바로 출력을 생성하는 것과 달리, CoT는 중간 단계의 사고 과정을 강조합니다. 이를 통해 논리적 사고 능력이 향상되며, 수학, 코딩, 과학적 추론, 복잡한 문서 작성 등에서 뛰어난 성능을 보입니다.
그러나 논리적 사고 능력은 향상되었지만, 여전히 추론과정에서 중요한 또다른 과제는 해결되지 않은 상태였습니다. 입력 데이터의 복잡성에 따라 모델이 연산량을 동적으로 조절할 수 있게 해주는 테스트 시간 확장(Test-Time Scaling)이 안정적인 작동하지 않은 것이 문제였죠.
딥시크 연구팀은 이 문제를 해결하기 위해 새로운 접근법을 시도했습니다.
수많은 시행착오 끝에 찾아낸 ‘최적의 학습 방법’
첫 번째 시도,
프로세스 기반 보상 모델 - ❌
프로세스 기반 보상 모델이란, 모델이 단계별 추론 과정을 거칠 때 그 추론 과정의 적절성을 평가하고 성능을 개선하는 방식입니다. 하지만 효과적인 방법으로 평가되지 않아 기각되었습니다.
두 번째 시도,
탐색 알고리즘 - ✔️?
탐색 알고리즘(Search Algorithms)이란, 여러 추론 경로를 탐색해 최적의 결과를 찾아내는 방식입니다. 특히 구글 알파고가 체스나 바둑 같은 게임에서 정답을 찾을 때 사용한 기법인 몬테카를로 트리 탐색(Monte Carlo Tree Search) 알고리즘을 적용하기도 했습니다.
하지만 정답이 명확한 게임과 달리, 딥시크같은 LLM은 주관적인 요소도 고려해야 하기 때문에 적절하지 않다고 판단되어 제외되었습니다. ❌
세 번째 시도,
강화 학습 (Reinforcement Learning, RL)
강화학습이란, 모델이 특정 행동을 수행할 때 그 결과에 따라 보상(reward)을 제공하는 방식입니다. 보상을 극대화하는 방향으로 최적의 정책(Policy)을 학습하는거죠.
전통적인 강화학습은 새로운 행동을 통해 더 나은 보상을 찾아내는 탐색(Exploration)과 현재까지 학습된 정보 중 가장 높은 보상을 준 행동을 반복하는 활용(Exploitation)의 균형을 맞추면서 최적의 전략을 찾는 과정이 포함되었습니다. 그러나 DeepSeek는 탐색(Exploration)을 최소화하고, 활용(Exploitation)을 우선적으로 활용하는 방식을 채택했습니다.
쉽게 말하자면 기존 강화학습이 모든 가능성을 실험적으로 탐색하는 것과 달리, DeepSeek는 이미 검증된 우수한 행동 방식을 사용하는 것입니다. 불필요한 탐색을 줄이고, 고품질 데이터 샘플만을 선택적으로 학습하여 샘플 효율성(Sample Efficiency)을 높이는 것이죠.
이처럼 DeepSeek는 최적화된 강화학습 알고리즘으로 다른 강화학습보다 훨씬 적은 데이터와 학습 시간, 낮은 비용으로 높은 성능을 달성했습니다. 그래서 딥시크 연구팀은 새로운 딥시크 모델 개발에 강화학습을 선택했습니다.
강화 학습을 중심으로 성능을 높인 LLM 모델의 가능성
DeepSeek-R1-Zero 모델은 AIME 2024 기준으로 초기 pass@1 성능은 15.6%였으나, RL 학습 후 71.0%로 크게 향상되었습니다. 실험 결과, 강화 학습이 모델의 성과를 효과적으로 개선한다는 점이 확인되었습니다.
또한, 다수결(Majority Voting)을 적용한 결과 성능이 86.7%까지 올라가면서 OpenAI-o1-0912와 동급의 성능을 보였습니다.
다수결 테스트 방식은 다음과 같습니다. 예를 들어, "2 더하기 2는?"이라는 질문을 LLM 모델이 여러 번 응답하도록 합니다. 이때 생성된 답변이 4, 4, 5, 8, 3이라면, 가장 많이 등장한 4가 정답으로 채택되는 방식입니다. 딥시크는 이러한 접근법을 통해 모델의 정답률을 더욱 높일 수 있습니다.
다단계 학습 과정(Multi-Stage Training)
기존 강화학습은 탐색(Exploration)과 활용(Exploitation)의 균형을 통해 최적의 전략을 찾습니다. 하지만 DeepSeek는 다국어 환경에서도 강력한 성능을 갖춘 대중용 AI 모델을 목표로 하였기 때문에, 다국어 처리에서 발생하는 가독성 문제와 언어 간 혼합 문제를 해결해야 했습니다. 이를 위해 적용된 것이 바로 다단계 학습(Multi-Stage Training)입니다.
DeepSeek-R1의 다단계 학습 과정은 다음과 같습니다:
이러한 과정을 통해 DeepSeek-R1은 다국어 환경에서도 뛰어난 추론 능력과 언어적 일관성을 갖춘, 대중적으로 사용할 수 있는 AI 모델로 발전할 수 있었습니다.
🏋️♀️DeepSeek-R1 의 앞으로의 방향성
딥시크가 더욱 나은 AI가 되기 위해서는 개선해야 할 사항으로 크게 네 가지를 꼽을 수 있습니다.
현재 DeepSeek-R1은 DeepSeek-V3에 비해 함수를 실행시키는 명령어인 함수 호출(Function Calling), 사용자와 AI가 대화를 통해 더 많은 정보를 교환하는 상호작용인 멀티턴 대화(Multi-turn), 데이터를 저장·전송할 때 많이 사용되는 경량의 데이터 교환형식인 JSON 출력(JSON Output) 등의 측면에서 부족한 모습을 보입니다. 이를 개선하기 위해 장기적인 CoT 활용 연구를 진행하며, 복잡한 태스크 수행 능력을 향상시키는 방향으로 발전해야 합니다.
문제 해결 현재 DeepSeek-R1은 중국어와 영어에 최적화되어 있으며, 다른 언어의 질의를 받을 경우 영어로 추론하고 응답하는 경향이 있습니다. 이를 해결하기 위해 다국어 환경에서도 보다 자연스러운 응답을 생성할 수 있도록 모델을 개선해야 합니다.
DeepSeek-R1은 프롬프트에 민감하게 반응하며,모델에게 정확하고 구조화된 출력을 생성하게 유도하는 퓨샷 프롬프팅(Few-Shot Prompting)이 성능 저하를 유발하는 경향이 있습니다. 따라서 모델이 이전에 학습한 일반적인 지식만을 활용하여 새로운 작업을 수행하는 방법인 제로샷 프롬프팅(Zero-shot prompting)을 활용하여 프롬프트에 대한 민감도를 줄이고 보다 안정적인 성능을 보일 수 있도록 최적화를 진행해야 합니다.
현재 소프트웨어 엔지니어링 관련 태스크의 평가 시간이 길어 강화 학습(RL) 효율성이 낮으며, 대규모 RL이 충분히 적용되지 않아 DeepSeek-R1이 DeepSeek-V3 대비 큰 성능 향상을 보이지 못하고 있습니다. 이를 개선하기 위해 소프트웨어 엔지니어링 데이터를 대상으로 특정 확률 분포에서 무작위로 만들어진 수열을 생성하는 방법인 기각 샘플링(Rejection Sampling)과 현재 실행중인 작업을 종료하지 않아도 다음 작업을 곧바로 실행하는 방식인 비동기 평가(Asynchronous Evaluation)를 도입해 RL 과정의 효율성을 높이는 방향으로 연구가 필요합니다.
🤞 개발자·창업가가 가질 수 있는 질문들
DeepSeek가 기존의 모델들을 뒤흔들 만큼 혁신적인 성과를 보여주고 있는 가운데, 오픈소스로 출시된 딥시크는 개발자와 스타트업에게도 새로운 기회를 제공할 가능성이 큽니다. 아직 진입 장벽이 높은 편이지만, 딥시크의 등장으로 이러한 장벽이 점점 낮아질 것으로 보입니다. 특히 GPU 사용량이 줄어들면서 비용 부담 없이 AI 애플리케이션을 개발할 수 있는 환경이 조성되고 있으며, 리소스 최적화 측면에서도 강점이 있습니다.
또, 중국이 강점으로 삼는 전략 중 하나가 빠른 Copy & Paste입니다. 많은 사람이 이를 부정적으로 평가하고, 단순한 모방은 효과적인 전략이 아니라고 생각합니다. 하지만 이번 사례는 이러한 전략을 제대로 활용할 경우 강력한 결과를 만들어낼 수 있다는 점을 보여주었습니다.
이런 변화 속에서 한국의 개발자와 창업가들은 몇 가지 질문을 던져볼 필요가 있습니다. 예를 들어, 한국은 여기에서 어떤 점을 본받고 배워야 할까? 우리가 더 나아질 수 있는 방향은 무엇일까? 창업가로서 어떤 마인드셋을 가져야 할까? 한국의 스타트업 생태계는 어떤 방향으로 발전해야 할까? 실리콘밸리나 중국의 스타트업 생태계에서 참고할 만한 전략은 무엇일까? 등의 질문이 있을 수 있죠. 한국의 AI 기업들은 앞으로 어떤 방향으로 나아가야 할지 고민해야 합니다. 경쟁력을 확보하기 위해 필요한 전략과 차별화된 접근 방식에 대한 연구가 더욱 중요해질 것입니다.
Website | YouTube | Disquiet
Editor : Joen