2025. 02. 28
이 아티클을 읽기 전에, 미리 읽어보면 좋아요!
1. GPT급 AI, 스타트업도 도전 가능하게 한 ‘딥시크’ 오픈소스?

바로 AI '딥시크-R1 교육세션' 중 발췌한 내용입니다.
💰 획기적인 비용 절감, 가능했던 이유는?

대형 언어 모델을 훈련하는 데는 막대한 비용이 필요합니다. 하지만 딥시크는 557만 6000달러(약 82억 원)로 GPT-4, GPT-5 수준의 모델을 개발했다고 발표했습니다. 오픈AI의 GPT-4와 비교하면 API 비용을 약 95% 절감한 셈이죠. 사용된 GPU 수도 10만 개였던 GPT에 비교하자면, 98%나 적은 2천 개만 사용되었습니다.
딥시크의 핵심은 ‘저비용 고효율’과 ‘오픈소스 공개’입니다.
이제 데이터센터 없이도 AI 개발 기반이 갖춰지지 않은 스타트업이나 연구자들이 깃허브에서 딥시크의 오픈소스를 내려받아 고성능 AI 모델을 보다 경제적이고 효율적인 환경에서 구현할 수 있게 됐습니다. 기존에는 빅테크 기업만이 독점적으로 접근할 수 있었던 기술이 점점 개방되고 있다는 점에서 의미가 크죠.
그렇다면 이런 최적화는 기술적으로 어떻게 가능했을까요?
먼저, 딥시크의 대표적인 몇 가지 특징을 살펴보겠습니다.
1. 양자화 (Quantization)
딥시크의 혁신은 FP8 연산의 전략적 활용에 있습니다. 쉽게 말해 원주율(𝝿, 3.141592…)을 곱하는 방식을 떠올리면 이해하기 쉽습니다. 기존 AI 모델들은 FP64나 FP32를 사용해 원주율을 3.141592653589793… 처럼 길게 계산하기 때문에 더 정확한 값을 얻을 수 있지만, 연산 속도가 느려집니다. 반면, ‘3.14’만 사용하면 속도가 훨씬 빨라지죠. 딥시크는 이 방식을 적용해 메모리 사용량을 75% 절감했습니다. 같은 시간 안에 훨씬 더 많은 연산을 수행할 수 있어, 학습과 추론 속도를 극적으로 향상시켰죠.
대신, 정확도를 유지하는 것도 중요한 과제였습니다. 딥시크 연구팀은 여기에 연산 단계별로 최적의 정밀도를 조합하는 방식을 도입했습니다. 특정 연산에는 높은 정밀도를, 다른 연산에는 낮은 정밀도를 적용하는 방식입니다. 이는 AI 프로그래밍에서 널리 사용되는 엔비디아(NVIDIA) CUDA의 GPU 병렬 연산 최적화 방식과도 유사합니다.
2. 토큰화(Tokenization LLM)의 변화
토큰화는 자연어 처리(NLP)와 대규모 언어 모델(LLM)에서 매우 중요한 과정입니다. 이는 텍스트 데이터를 처리하기 위해 문장을 단어, 서브워드, 기호 등의 작은 단위로 나누는 작업을 의미합니다. 이 과정은 LLM이 텍스트를 이해하고 생성하는 데 필수적입니다.
토큰은 단어, 어절, 문자 등 다양한 형태를 가질 수 있습니다. 예를 들어, "오늘 날씨가 좋다"라는 문장은 토큰화 과정을 거쳐 ["오늘", "날씨가", "좋다"]와 같은 단위로 나눌 수 있습니다. 이를 통해 컴퓨터는 자연어 텍스트를 보다 효과적으로 분석하고 처리할 수 있습니다.
기존 LLM은 문장을 "나는 / 학교에 / 간다"와 같이 단어 단위로 나누어 처리했지만, 딥시크는 문장 전체를 한 번에 분석하는 방식을 도입하여 처리 속도를 2배 향상시켰습니다. 이를 통해 정확도를 90% 이상 유지하며 더 빠르고 효율적인 자연어 처리 기술을 구현할 수 있었죠.
3. 전문가 시스템 (MoE, Mixture of Experts)
전문가 시스템은 하나의 AI가 모든 작업을 수행하기보다는 필요한 순간에 특정 분야의 전문가 모델만 작동하는 방식입니다. 기존 모델이 1.8조 개의 파라미터 전부를 항상 활성화하고 있는 반면, 딥시크는 6710억 개의 파라미터 중 370억 개만 한 번에 작동시키는 것이 특징입니다.
다양한 분야에서 활용되고 있는데, 자연어 처리(NLP)에서는 기계 번역과 대화 시스템에서 특정 언어 쌍이나 맥락에 맞는 전문가 모델을 선택해 성능을 향상시킵니다. 이미지 인식에서는 물체 인식과 스타일 변환에 사용되어 복잡한 장면을 효과적으로 처리합니다. 추천 시스템에서는 개인화된 콘텐츠 추천을 제공하고, 자율주행차에서는 주행 상황에 맞는 전문가 모델을 활성화해 안전성을 높입니다. 그 외에도 의료 영상 분석, 음성 인식, 금융 분석 등에서도 정확성과 효율성을 개선하는 데 중요한 역할을 합니다.
4. 강화 학습(RL, Reinforcement Learning)
딥시크 연구팀은 기존 모델을 세밀하게 조정하여 성능을 개선하는 작업인 지도학습(SFT, Supervised Fine Tuning)을 전혀 거치지 않고, 오로지 강화 학습으로만 학습시켜 먼저 DeepSeek-R1-Zero를 개발했습니다.
강화 학습은 특정 환경에서 가장 유리한 행동을 결정하도록 실행되는 기계 학습의 일종입니다. 상황을 인식한 뒤 행동하는데, 결과가 좋으면 기억해뒀다가 가장 좋은 보상을 얻을 수 있도록 선택을 반복하고, 결과가 바쁘면 회피하는 방식이죠.

이러한 방식으로 학습된 DeepSeek-R1-Zero의 성능이 뛰어났기 때문에, 연구팀은 더 나아가 일반인이 사용할 수 있는 대중적인 모델도 개발하고자 했습니다.
하지만 두 가지 문제가 발생했습니다. 첫 번째는 읽기 가독성이 떨어지는 답변(Poor Readability)이고, 두 번째는 다른 언어가 섞이는 현상(Language Mixing)입니다. 예를 들어, 한국어로 질문하면 영어로 대답하거나, 중국어와 영어가 섞여서 답변이 나오는 문제였습니다.
이를 해결하기 위해 다음 모델에서는 강화 학습뿐만 아니라 소량의 콜드 스타트(cold start) 데이터 파인튜닝과 두 번의 강화 학습을 통해 두 문제를 해결한 DeepSeek-R1을 개발했습니다. 이 모델은 OpenAI-o1-1217의 성능과 비슷해 화제가 되기도 했습니다.
5. 증류(Distillation)
증류는 대형 AI 모델의 지식을 작은 모델에 전달해 크기를 줄이면서도 성능을 유지하는 기술입니다. 일반 개발자나 인디 개발자들은 직접 LLM 모델을 강화 학습으로 만드는 것보다, 대형 LLM 모델의 지식을 소형 언어 모델에 증류하는 것이 더 효과적이고 효율적이라는 의견을 내고 있죠.
그래서 연구팀은 DeepSeek-R1을 공개된 소형 언어 모델인 Qwen과 Llama에 증류해보았습니다. 이를 통해 더 적은 리소스로 유사한 결과를 얻을 수 있었습니다. 이후, DeepSeek-R1의 추론 능력을 더 작은 모델에 전이하는 연구도 진행되었습니다. Qwen2.5-32B(Qwen, 2024b)를 기반 모델로 사용해 DeepSeek-R1을 직접 증류한 결과, 강화 학습을 적용하는 것보다 직접 증류하는 방식이 더 뛰어난 성능을 낼 수 있다는 것을 확인할 수 있었습니다.

핵심적인 발견도 있었습니다.
대규모 모델이 학습한 추론 패턴은 작은 모델의 성능 향상에 결정적인 역할을 하며, 이를 활용한 DeepSeek-R1의 증류 모델 성능이 크게 개선되었습니다. 특히 Distilled 14B 모델은 오픈소스 모델인 QwQ-32B-Preview(Qwen, 2024a) 대비 압도적인 성능을 보였죠.
DeepSeek는 증류된 Qwen 및 Llama(Dubey et al., 2024) 오픈소스를 시리즈로 공개하며, LLM 개발의 새로운 방향성을 제시하고 있습니다.
📰 딥시크가 오픈AI를 “증류”로 베꼈다고?
최근 딥시크가 오픈AI의 모델을 활용해 합성 데이터를 만들고, 이를 통해 증류했다는 주장이 나오고 있습니다. 1월 28일, 트럼프 행정부의 'AI 차르' 데이비드 색스는 "딥시크가 오픈AI 모델을 활용해 기술을 개발했다는 상당한 증거가 있다"라고 처음 언급했습니다. 동시에 마이크로소프트(MS)의 보안 연구원들은 지난해 가을 딥시크 관련 인물이 오픈AI의 API를 사용해 대량의 데이터를 빼내는 사례를 목격했으며, 이를 오픈AI에 통보했다는 소식이 전해졌습니다.
오픈AI는 자사 모델을 활용한 증류가 지적재산권(IP) 침해라고 주장하고 있습니다. 그러나 실제 사례를 찾기는 어렵고 법적인 조치를 취하기도 사실상 불가능하다는 분석이 나오고 있습니다. 특히 인터넷 데이터를 무차별로 크롤링한 오픈AI가 이런 주장을 하는 것에 대해 비판이 많죠.
예술계에서 “좋은 예술가는 베끼고, 훌륭한 예술가는 훔친다”는 말이 있듯이, AI 분야에서도 비슷한 논란이 계속되고 있습니다. 증류가 도둑질인지에 대한 논의는 여전히 뜨겁고, 이번 딥시크 사태 이후 AI 업계에 거대한 변화가 찾아올 것이 분명합니다.
👀 다음편 예고
2편 흥미롭게 읽으셨나요? 다음편에서는 조금 더 기술적으로 자세히 다뤄볼 예정이에요.
- 딥시크가 ‘강화학습(RL)’을 선택하게 된 결정적인 이유
- 강화학습(RL)을 더욱 강력하게 만든 4가지 주요 기술 단계
- DeepSeek-R1 의 앞으로의 방향성
- 중국vs미국 시장상황의 변화
- 국내 개발자·창업가가 가질 수 있는 질문들
다음 편도 꼭 읽어보시고, 2025년에 놓쳐서는 안될 핵심적인 AI 인사이트를 얻어보세요.🎉

Website | YouTube | Disquiet
Editor : Joen
2025. 02. 28
이 아티클을 읽기 전에, 미리 읽어보면 좋아요!
1. GPT급 AI, 스타트업도 도전 가능하게 한 ‘딥시크’ 오픈소스?
바로 AI '딥시크-R1 교육세션' 중 발췌한 내용입니다.
💰 획기적인 비용 절감, 가능했던 이유는?
대형 언어 모델을 훈련하는 데는 막대한 비용이 필요합니다. 하지만 딥시크는 557만 6000달러(약 82억 원)로 GPT-4, GPT-5 수준의 모델을 개발했다고 발표했습니다. 오픈AI의 GPT-4와 비교하면 API 비용을 약 95% 절감한 셈이죠. 사용된 GPU 수도 10만 개였던 GPT에 비교하자면, 98%나 적은 2천 개만 사용되었습니다.
딥시크의 핵심은 ‘저비용 고효율’과 ‘오픈소스 공개’입니다.
이제 데이터센터 없이도 AI 개발 기반이 갖춰지지 않은 스타트업이나 연구자들이 깃허브에서 딥시크의 오픈소스를 내려받아 고성능 AI 모델을 보다 경제적이고 효율적인 환경에서 구현할 수 있게 됐습니다. 기존에는 빅테크 기업만이 독점적으로 접근할 수 있었던 기술이 점점 개방되고 있다는 점에서 의미가 크죠.
그렇다면 이런 최적화는 기술적으로 어떻게 가능했을까요?
먼저, 딥시크의 대표적인 몇 가지 특징을 살펴보겠습니다.
1. 양자화 (Quantization)
딥시크의 혁신은 FP8 연산의 전략적 활용에 있습니다. 쉽게 말해 원주율(𝝿, 3.141592…)을 곱하는 방식을 떠올리면 이해하기 쉽습니다. 기존 AI 모델들은 FP64나 FP32를 사용해 원주율을 3.141592653589793… 처럼 길게 계산하기 때문에 더 정확한 값을 얻을 수 있지만, 연산 속도가 느려집니다. 반면, ‘3.14’만 사용하면 속도가 훨씬 빨라지죠. 딥시크는 이 방식을 적용해 메모리 사용량을 75% 절감했습니다. 같은 시간 안에 훨씬 더 많은 연산을 수행할 수 있어, 학습과 추론 속도를 극적으로 향상시켰죠.
대신, 정확도를 유지하는 것도 중요한 과제였습니다. 딥시크 연구팀은 여기에 연산 단계별로 최적의 정밀도를 조합하는 방식을 도입했습니다. 특정 연산에는 높은 정밀도를, 다른 연산에는 낮은 정밀도를 적용하는 방식입니다. 이는 AI 프로그래밍에서 널리 사용되는 엔비디아(NVIDIA) CUDA의 GPU 병렬 연산 최적화 방식과도 유사합니다.
2. 토큰화(Tokenization LLM)의 변화
토큰화는 자연어 처리(NLP)와 대규모 언어 모델(LLM)에서 매우 중요한 과정입니다. 이는 텍스트 데이터를 처리하기 위해 문장을 단어, 서브워드, 기호 등의 작은 단위로 나누는 작업을 의미합니다. 이 과정은 LLM이 텍스트를 이해하고 생성하는 데 필수적입니다.
토큰은 단어, 어절, 문자 등 다양한 형태를 가질 수 있습니다. 예를 들어, "오늘 날씨가 좋다"라는 문장은 토큰화 과정을 거쳐 ["오늘", "날씨가", "좋다"]와 같은 단위로 나눌 수 있습니다. 이를 통해 컴퓨터는 자연어 텍스트를 보다 효과적으로 분석하고 처리할 수 있습니다.
기존 LLM은 문장을 "나는 / 학교에 / 간다"와 같이 단어 단위로 나누어 처리했지만, 딥시크는 문장 전체를 한 번에 분석하는 방식을 도입하여 처리 속도를 2배 향상시켰습니다. 이를 통해 정확도를 90% 이상 유지하며 더 빠르고 효율적인 자연어 처리 기술을 구현할 수 있었죠.
3. 전문가 시스템 (MoE, Mixture of Experts)
전문가 시스템은 하나의 AI가 모든 작업을 수행하기보다는 필요한 순간에 특정 분야의 전문가 모델만 작동하는 방식입니다. 기존 모델이 1.8조 개의 파라미터 전부를 항상 활성화하고 있는 반면, 딥시크는 6710억 개의 파라미터 중 370억 개만 한 번에 작동시키는 것이 특징입니다.
다양한 분야에서 활용되고 있는데, 자연어 처리(NLP)에서는 기계 번역과 대화 시스템에서 특정 언어 쌍이나 맥락에 맞는 전문가 모델을 선택해 성능을 향상시킵니다. 이미지 인식에서는 물체 인식과 스타일 변환에 사용되어 복잡한 장면을 효과적으로 처리합니다. 추천 시스템에서는 개인화된 콘텐츠 추천을 제공하고, 자율주행차에서는 주행 상황에 맞는 전문가 모델을 활성화해 안전성을 높입니다. 그 외에도 의료 영상 분석, 음성 인식, 금융 분석 등에서도 정확성과 효율성을 개선하는 데 중요한 역할을 합니다.
4. 강화 학습(RL, Reinforcement Learning)
딥시크 연구팀은 기존 모델을 세밀하게 조정하여 성능을 개선하는 작업인 지도학습(SFT, Supervised Fine Tuning)을 전혀 거치지 않고, 오로지 강화 학습으로만 학습시켜 먼저 DeepSeek-R1-Zero를 개발했습니다.
강화 학습은 특정 환경에서 가장 유리한 행동을 결정하도록 실행되는 기계 학습의 일종입니다. 상황을 인식한 뒤 행동하는데, 결과가 좋으면 기억해뒀다가 가장 좋은 보상을 얻을 수 있도록 선택을 반복하고, 결과가 바쁘면 회피하는 방식이죠.
이러한 방식으로 학습된 DeepSeek-R1-Zero의 성능이 뛰어났기 때문에, 연구팀은 더 나아가 일반인이 사용할 수 있는 대중적인 모델도 개발하고자 했습니다.
하지만 두 가지 문제가 발생했습니다. 첫 번째는 읽기 가독성이 떨어지는 답변(Poor Readability)이고, 두 번째는 다른 언어가 섞이는 현상(Language Mixing)입니다. 예를 들어, 한국어로 질문하면 영어로 대답하거나, 중국어와 영어가 섞여서 답변이 나오는 문제였습니다.
이를 해결하기 위해 다음 모델에서는 강화 학습뿐만 아니라 소량의 콜드 스타트(cold start) 데이터 파인튜닝과 두 번의 강화 학습을 통해 두 문제를 해결한 DeepSeek-R1을 개발했습니다. 이 모델은 OpenAI-o1-1217의 성능과 비슷해 화제가 되기도 했습니다.
5. 증류(Distillation)
증류는 대형 AI 모델의 지식을 작은 모델에 전달해 크기를 줄이면서도 성능을 유지하는 기술입니다. 일반 개발자나 인디 개발자들은 직접 LLM 모델을 강화 학습으로 만드는 것보다, 대형 LLM 모델의 지식을 소형 언어 모델에 증류하는 것이 더 효과적이고 효율적이라는 의견을 내고 있죠.
그래서 연구팀은 DeepSeek-R1을 공개된 소형 언어 모델인 Qwen과 Llama에 증류해보았습니다. 이를 통해 더 적은 리소스로 유사한 결과를 얻을 수 있었습니다. 이후, DeepSeek-R1의 추론 능력을 더 작은 모델에 전이하는 연구도 진행되었습니다. Qwen2.5-32B(Qwen, 2024b)를 기반 모델로 사용해 DeepSeek-R1을 직접 증류한 결과, 강화 학습을 적용하는 것보다 직접 증류하는 방식이 더 뛰어난 성능을 낼 수 있다는 것을 확인할 수 있었습니다.
핵심적인 발견도 있었습니다.
대규모 모델이 학습한 추론 패턴은 작은 모델의 성능 향상에 결정적인 역할을 하며, 이를 활용한 DeepSeek-R1의 증류 모델 성능이 크게 개선되었습니다. 특히 Distilled 14B 모델은 오픈소스 모델인 QwQ-32B-Preview(Qwen, 2024a) 대비 압도적인 성능을 보였죠.
DeepSeek는 증류된 Qwen 및 Llama(Dubey et al., 2024) 오픈소스를 시리즈로 공개하며, LLM 개발의 새로운 방향성을 제시하고 있습니다.
👀 다음편 예고
2편 흥미롭게 읽으셨나요? 다음편에서는 조금 더 기술적으로 자세히 다뤄볼 예정이에요.
다음 편도 꼭 읽어보시고, 2025년에 놓쳐서는 안될 핵심적인 AI 인사이트를 얻어보세요.🎉
Website | YouTube | Disquiet
Editor : Joen