AI 뉴스

딥시크(DeepSeek) V4 공식 출시 — 1.6조 파라미터 오픈웨이트가 GPT-5.5·Claude Opus 4.7 코딩 벤치를 따라잡은 날

AI 디코드 2026. 5. 3. 05:07

딥시크(DeepSeek) V4 공식 출시 — 1.6조 파라미터 오픈웨이트가 GPT-5.5·Claude Opus 4.7 코딩 벤치를 따라잡은 날

AI 뉴스 해석 2026. 05. 02. 약 50분 읽기

2026년 4월 24일 출시된 DeepSeek-V4-Pro / V4-Flash 의 아키텍처·벤치마크·가격·한국 영향까지 한 편으로 정

리. MoE 1.6T·49B active, 1M 컨텍스트, MIT 라이선스, V4-Pro 입력 $1.74·출력 $3.48.

TLDR - 무엇이: 딥시크(DeepSeek) 가 2026년 4월 24일 V4 시리즈를 공식 출시.
V4-Pro (1.6조 파라미터·49B active) + V4-Flash (284B·13B active) 두 모델, 둘 다 MIT 라이선스 오픈웨이트, 1M 토큰 컨텍스트 기본.
Why ? 코딩 벤치마크(LiveCodeBench 93.5 / Codeforces 3206) 에서 GPT-5.5·Claude Opus 4.7 을 추월하거나 박빙.
V4-Pro 가격이 Claude Opus 4.7 대비 약 1/7.
Who?
① 한국 AI 스타트업·SI — 비용 부담 큰 코딩·에이전트 워크로드를 자가 호스팅 가능
② SK하이닉스·삼성 HBM — DeepSeek 의 NVIDIA Blackwell 채택으로 HBM4 수요에 추가 변수
③ 폐쇄형 프런티어 (OpenAI·Anthropic) — "오픈웨이트가 3~6개월 뒤" 라는 격차가 이번에 또 한 번 좁혀짐.

오늘은 4월 24일 출시된 딥시크(DeepSeek) V4 를 한 편으로 정리하겠습니다. 공식 릴리스 노트, Hugging Face 모델 카드, 기술 리포트 PDF, NVIDIA Developer Blog 의 배포 가이드, 그리고 Simon Willison 같은 개발자 후기까지 한 자리에 묶었습니다. 표·벤치마크 수치·가격·한국 시장 임팩트까지 다 들어있어요. 길어요.

이미지 출처: DeepSeek API Docs (/img/v4-spec-en.png, editorial fair use)


V4 시리즈 한눈에 보기 — 두 모델·MIT·1M 컨텍스트

V4 는 두 모델이 동시에 출시됐습니다. V4-Pro 가 플래그십이고, V4-Flash 가 비용 최적화형입니다. 둘 다 Mixture-of-Experts (MoE) 구조 라서 전체 파라미터는 거대하지만 토큰당 활성 파라미터 만 실제 연산에 들어갑니다.

항목 V4-Pro V4-Flash 비고
전체 파라미터 1.6조 (1.6T) 284B 둘 다 MoE
토큰당 활성 파라미터 49B 13B 추론 시 실제 연산량
컨텍스트 윈도 1M 토큰 1M 토큰 모든 공식 서비스 기본값
정밀도 FP4 + FP8 혼합 FP4 + FP8 혼합 MoE 전문가는 FP4
추론 모드 Thinking / Non-Thinking Thinking / Non-Thinking 동일
라이선스 MIT MIT 상업 이용·파인튜닝 자유
API 호환 OpenAI · Anthropic OpenAI · Anthropic 헤더만 바꾸면 호환
호스팅 chat.deepseek.com · API · HF · Together · DeepInfra · NIM 동일 다중 호스팅
📖 용어 풀이
MoE (Mixture-of-Experts): 거대 모델 안에 작은 "전문가 네트워크" 여러 개를 두고, 들어온 토큰마다 그 중 일부만 골라 쓰는 구조. 전체 파라미터는 크지만 추론 비용은 활성 파라미터에만 비례합니다.
1M 컨텍스트: 한 번에 입력받을 수 있는 토큰 수가 100만 개. 책 5~6권 분량을 한꺼번에 넣고 질문할 수 있는 수준.
FP4 / FP8: 가중치를 4비트 / 8비트 부동소수점으로 표현하는 정밀도. 비트 수가 작을수록 메모리·속도 이득이지만 표현력 손실 위험. NVIDIA Blackwell B300 부터 FP4(NVFP4) 가 하드웨어 네이티브 지원.

여기서 진짜 눈여겨볼 포인트는 컨텍스트 1M 이 기본값 이라는 점입니다. GPT-5.5 도 1M 까지 찍지만 별도 모드·요금이 붙는 식인데, V4 는 그냥 켜져 있어요. 그리고 라이선스가 MIT. 회사 안에서 모델을 받아 호스팅하고, 파인튜닝하고, 상업 서비스에 쓰는 데 라이선스 비용이 0 입니다.

Llama 류의 "추가 조건 있는 commercial use" 가 아니라 진짜 MIT.

구 모델 deprecation 일정 도 같이 발표됐습니다. 기존 deepseek-chat / deepseek-reasoner 엔드포인트는 2026년 7월 24일 부로 폐기[^1]. 운영 중인 분들은 이제부터 마이그레이션 캘린더 잡는 게 맞습니다.


대표 성능 수치 — V4-Pro 가 코딩에서 프런티어와 붙는 그림

먼저 메인 비교표부터. V4-Pro 의 주요 벤치마크 점수와 GPT-5.5·Claude Opus 4.7 비교입니다[^2][^3][^4].

이미지 출처: DeepSeek API Docs (/img/v4-benchmark.png, editorial fair use)

분야 벤치마크 DeepSeek V4-Pro GPT-5.5 Claude Opus 4.7
코딩 LiveCodeBench 93.5% 미공개 88.8%
코딩 Codeforces Rating 3206 3168 미공개
코딩 SWE-bench Verified 80.6% 미공개 80.8%
코딩 Terminal-Bench 2.0 67.9% 미공개 65.4%
코딩 SWE-bench Multilingual 76.2% 미공개 미공개
지식 MMLU-Pro 87.5% 미공개 미공개
추론 GPQA Diamond 90.1% 미공개 미공개
추론 HMMT 2026 Feb 95.2% 미공개 96.2%
종합 HLE (Humanity's Last Exam) 37.7% 미공개 40.0%
장문 MRCR 1M 토큰 83.5% 미공개 미공개
93.5%
LiveCodeBench
3206
Codeforces Rating
80.6%
SWE-bench Verified

핵심 관전 포인트 세 가지로 요약하면, 코딩 (LiveCodeBench·Terminal-Bench) 에서는 V4-Pro 가 Claude Opus 4.7 을 앞섰고, SWE-bench Verified·HMMT·HLE 같은 추론·검증 항목은 Claude 가 0.2~3 포인트 우위, Codeforces 점수는 V4-Pro 가 GPT-5.5 보다 38점 높음. 코딩 벤치마크에서 처음으로 오픈웨이트가 폐쇄형 프런티어를 앞섰다는 점이 이번 출시의 가장 큰 의미입니다.

다만 단서가 있어요. DeepSeek 본인들이 기술 리포트에서 "프런티어 대비 약 3~6개월 격차" 라고 명시[^5]. ARC-AGI 같은 일부 사후 추론 평가에서는 GPT-5.5 에 의미 있게 뒤처졌고, "벤치마크 헤드라인 = 실사용 동등" 으로 보면 안 됩니다.


V4-Flash — 13B 액티브로 Pro 와 거의 같은 추론

V4-Flash 는 별도로 떼서 보겠습니다. 284B 전체·13B 액티브 라는 작은 활성 파라미터인데도 추론 능력이 V4-Pro 에 "근접한다" 는 게 공식 표현입니다.

이미지 출처: DeepSeek API Docs (/img/v4-benchmark-2.png, editorial fair use)

비교 항목 V4-Pro (49B active) V4-Flash (13B active) 차이
LiveCodeBench 93.5% 약 89% (공식 추정) 4.5p
Codeforces 3206 ~2900 ~300
MMLU-Pro 87.5% ~85% ~2.5p
입력 가격 (M tokens) $1.74 $0.14 1/12
출력 가격 (M tokens) $3.48 $0.28 1/12
컨텍스트 1M 1M 동일
📖 용어 풀이
활성 파라미터(Active Parameters): MoE 모델에서 한 토큰을 생성할 때 실제로 계산에 참여하는 파라미터. 전체가 아니라 활성만 본다는 게 MoE 의 핵심 효율 트릭.
Codeforces Rating: 경쟁 프로그래밍 사이트 Codeforces 의 ELO 형 등급. 인간 그랜드마스터가 보통 2400~3000 대.

체감상 V4-Flash 가 진짜 무서운 건 가격 대비 성능 입니다. Simon Willison 이 자기 블로그에 "$0.14/$0.28 는 OpenAI Nano 를 이기고 Gemini 의 budget 라인과 같은 영역" 이라고 평가했어요[^6]. 한국 스타트업 입장에서 보면 단가 차이가 워크로드 단위 수익성에 직격으로 영향을 줍니다. 챗봇·요약·분류·간단한 에이전트 처럼 V4-Pro 까지 쓸 일 없는 케이스에 V4-Flash 를 깔면 OpenAI 4o-mini·Claude Haiku 대비 압도적인 단가가 됩니다.


아키텍처·기능 변경점 — deep dive

V4 의 진짜 변화는 모델 크기가 아니라 아키텍처 효율 에 있어요. 1.6T 짜리 전체 파라미터를 49B 액티브로 돌리면서, 그것도 1M 컨텍스트에서 V3.2 대비 추론 FLOP 73% 감소·KV 캐시 90% 감소 를 달성했습니다[^7][^8].

이미지 출처: DeepSeek API Docs (/img/v4-efficiency.png, editorial fair use)

1) 하이브리드 어텐션 — CSA + HCA

V4 는 두 종류의 압축 어텐션을 섞어 씁니다. Compressed Sparse Attention (CSA)Heavily Compressed Attention (HCA). 한쪽은 토큰을 희소하게 묶어 보고, 다른 쪽은 더 강하게 압축한 형태로 장문 컨텍스트의 메모리를 줄입니다.

📖 용어 풀이
어텐션 (Attention): Transformer 의 핵심 연산. 입력 토큰들 간의 관계를 가중치로 계산. 컨텍스트가 길어질수록 메모리·연산이 N² 로 폭증해서, 1M 컨텍스트는 어텐션을 어떻게 줄이느냐가 거의 전부.
KV Cache: 추론 도중 이전 토큰들의 Key·Value 결과를 저장해 재사용하는 캐시. 길어지는 응답·1M 컨텍스트에서 이 캐시 메모리가 GPU 메모리의 가장 큰 변수.

이 둘을 조합하면 1M 컨텍스트에서도 메모리 폭발 없이 추론 가능 한 모델이 만들어집니다. NVIDIA 블로그가 측정한 NVL72 GB200 환경에서 사용자당 150 토큰/초 이상이 나오는 게 이 아키텍처 덕분이에요[^7].

2) Manifold-Constrained Hyper-Connections (mHC)

전통적인 잔차 연결(residual connection) 을 강화한 변형. 레이어 간 신호 전파를 안정화해서 모델 깊이를 늘릴 때 흔히 생기는 표현력 저하를 줄입니다. 이 부분은 논문 PDF 에서 수식까지 공개돼 있어요[^9].

3) Muon 옵티마이저로 사전학습

Adam 계열 대신 Muon 옵티마이저를 채택. 큰 MoE 모델에서 수렴 속도와 학습 안정성 을 동시에 잡으려는 선택. 32T 토큰 사전학습을 일정 비용 안에 마무리하기 위한 도구 선택으로 보입니다.

4) FP4 + FP8 혼합 정밀도

가장 비싼 MoE 전문가 가중치를 FP4 로 양자화하고, 나머지(어텐션·라우팅 등)는 FP8 로 유지. NVIDIA Blackwell 부터는 FP4(NVFP4) 가 하드웨어 네이티브라 추가 변환 비용이 거의 없습니다.

이미지 출처: DeepSeek API Docs (/img/v4-ppt-en.png, editorial fair use)

📖 용어 풀이
NVFP4: NVIDIA Blackwell 세대(B200·B300·GB200) 부터 하드웨어 네이티브로 지원되는 FP4 표현 방식. 기존 FP4 보다 표현력 손실을 줄이도록 NVIDIA 가 다듬은 형식.
SGLang / vLLM: 거대 LLM 을 효율적으로 서빙하기 위한 오픈소스 추론 엔진. KV 캐시 공유·연속 배칭·prefill-decode 분리 같은 최적화를 한 번에 묶어 둠. NVIDIA NIM 도 내부적으로 이 둘을 활용.

5) Two-Stage Post-Training

사후학습은 두 단계. 먼저 도메인별 전문가 모델 을 SFT + GRPO 강화학습으로 따로 키우고, 그 다음 on-policy distillation 으로 단일 모델에 통합. 이게 V4-Pro 가 코딩(LiveCodeBench)·수학(HMMT)·일반 지식(MMLU-Pro) 에서 동시에 강한 이유로 보입니다.


분야별 벤치마크 — 표 3개로 정리

코딩

이미지 출처: Hugging Face — DeepSeek-V4-Pro 모델 카드 (assets/dsv4_performance.png, editorial fair use)

벤치마크 V4-Pro Claude Opus 4.7 GPT-5.5 DeepSeek V3.2
LiveCodeBench 93.5% 88.8% 미공개 ~85%
SWE-bench Verified 80.6% 80.8% 미공개 ~71%
Terminal-Bench 2.0 67.9% 65.4% 미공개 ~52%
Codeforces Rating 3206 미공개 3168 ~2700
SWE-bench Multilingual 76.2% 미공개 미공개 미공개

코딩에서는 사실상 V4-Pro 가 오픈웨이트 SOTA[^10]. SWE-bench 는 Claude 가 0.2p 차로 앞이지만, Terminal-Bench (실제 터미널·셸 사용 에이전트 벤치) 는 V4-Pro 가 2.5p 위. 이게 의미 있는 게, 단순 함수 작성보다 실제 IDE·CLI 환경에서 멀티 스텝 에이전트로 돌아가는 능력 이 코딩 어시스턴트 실사용에 더 가깝거든요.

추론·수학·지식

벤치마크 V4-Pro Claude Opus 4.7 GPT-5.5 (참고)
MMLU-Pro 87.5% 미공개 미공개
GPQA Diamond 90.1% 미공개 ~89%
HMMT 2026 Feb 95.2% 96.2% 미공개
IMOAnswerBench 89.8% 미공개 미공개
HLE (Humanity's Last Exam) 37.7% 40.0% 미공개
ARC-AGI 미공개·격차 인정 앞섬

추론·수학에서는 V4-Pro 가 Claude Opus 4.7 을 추월하지 못합니다. 기술 리포트에서도 솔직하게 "sustained multi-step reasoning 에서 격차" 를 인정[^5]. ARC-AGI 가 대표 사례.

장문 컨텍스트

벤치마크 V4-Pro 비고
MRCR (1M 토큰) 83.5% 1M 컨텍스트 검색 정확도
CorpusQA (1M) 62.0% 1M 컨텍스트 코퍼스 QA
출력 최대 384K 토큰 "Think Max" 모드

1M 컨텍스트에서 검색 정확도(MRCR) 가 83.5% 면 거의 사용 가능한 수준. Claude Sonnet 4.5 가 1M MRCR 에서 70~75% 사이라서, 장문 RAG·코드베이스 인덱싱 워크로드에 V4-Pro 가 매력적인 후보가 됐습니다.


실제 사용 사례 — 개발자 인용 3건

Simon Willison: "이건 매우, 매우 저렴한 모델"

"DeepSeek V4 is a very, very inexpensive model. … V4-Flash 의 $0.14 / $0.28 가격은 OpenAI Nano 를 이기고 Gemini 의 budget 옵션과 같은 영역이다. V4-Pro 는 $1.74 / $3.48 라서 Claude Sonnet 의 $3 / $15 를 크게 깎고, Claude Opus 보다 훨씬 아래에 위치한다."[^6]

Simon Willison 이 자기 표준 테스트인 "자전거 탄 펠리컨 SVG 그리기" 로 두 모델을 비교했는데, V4-Pro 결과는 본문이 너무 큰 약점이 있었고, V4-Flash 결과는 좀 더 균형 잡힌 출력이 나왔다고 평가했습니다. 변동성이 있다는 정직한 후기.

이미지 출처: Simon Willison's blog — V4-Pro 펠리컨 SVG 출력 (deepseek-v4-pro.png, editorial fair use)

이미지 출처: Simon Willison's blog — V4-Flash 펠리컨 SVG 출력 (deepseek-v4-flash.png, editorial fair use)

NVIDIA: "Day-0 NIM 배포"

"DeepSeek V4 는 NVIDIA Blackwell B300 과 GB200 NVL72 에서 사용자당 150 토큰/초 이상을 달성한다. NVFP4 네이티브 지원과 SGLang·vLLM 의 최적화 레시피를 통해 day-0 부터 build.nvidia.com 의 NIM 엔드포인트에서 호출 가능."[^7]

NVIDIA 가 출시 당일 자기네 Blackwell 환경에서 작동하는 데모를 공개했다는 건, NVIDIA 입장에서 DeepSeek 가 자기 GPU 의 쇼케이스 케이스가 됐다는 뜻이기도 합니다.

DataCamp: "오픈웨이트가 프런티어와 부딪히는 첫 시즌"

"V4-Pro 는 오픈웨이트 SOTA 로서 폐쇄형 프런티어와 박빙 영역에 들어왔다. 동시에 1.6T 같은 거대 모델을 자가 호스팅할 수 있는 인프라는 여전히 한정돼 있어, 사실상 NVIDIA NIM·Together·DeepInfra·OpenRouter 같은 호스팅 프로바이더가 단기 수혜처."[^11]

여기 추가로 하나 짚자면, MIT 라이선스라는 게 한국 스타트업 같은 작은 팀에게는 "호스팅 비용만 감당하면 GPT-5.5 급 코딩 능력을 사내 모델로 가질 수 있다" 는 뜻이 됩니다. 데이터 보안·미국 외 클라우드 의존 같은 컴플라이언스 이슈가 있는 곳에 매력적입니다.


경쟁 구도 — 워크로드별 유불리

이미지 출처: NVIDIA Developer Blog — Pareto frontier 차트 (pareto-new-2.webp, editorial fair use)

워크로드 V4-Pro V4-Flash Claude Opus 4.7 GPT-5.5
코딩 어시스턴트 (IDE 통합) 🟢 강력 🟡 중간 🟢 강력 🟢 강력
멀티 스텝 에이전트 (long-horizon) 🟡 중간 🔴 약함 🟢 강력 🟢 강력
사실 추론 (HLE·ARC-AGI) 🔴 약함 🔴 약함 🟢 강력 🟢 강력
1M 컨텍스트 RAG 🟢 강력 🟢 강력 🟡 중간 🟡 중간
가격 민감 챗봇 🟡 중간 🟢 압도적 🔴 비쌈 🟡 중간
수학·과학 리서치 🟡 중간 🔴 약함 🟢 강력 🟢 강력
자가 호스팅 🟢 가능 (MIT) 🟢 가능 (MIT) 🔴 불가 🔴 불가
한국 데이터 컴플라이언스 🟢 자가 호스팅 OK 🟢 자가 호스팅 OK 🟡 미국 클라우드 🟡 미국 클라우드

요약하면, 코딩 어시스턴트와 1M RAG, 가격 민감 워크로드 는 V4 라인이 우위. 장기 멀티 스텝 에이전트와 어려운 추론 은 여전히 Claude·GPT 가 이기는 영역. 자가 호스팅과 컴플라이언스가 중요한 곳에는 V4 가 거의 유일한 프런티어급 선택지가 됩니다.


이용 범위·가격·배포 일정

이미지 출처: DeepSeek API Docs (/img/v4-price-en.png, editorial fair use)

가격 (per 1M tokens, 캐시 미적용 기준)

모델 입력 (per 1M tokens) 출력 (per 1M tokens) 1M 입출력 합 (예시)
DeepSeek V4-Pro $1.74 $3.48 ~$5.22
DeepSeek V4-Flash $0.14 $0.28 ~$0.42
GPT-5.5 (참고) ~$10 ~$30 ~$40
Claude Opus 4.7 (참고) ~$15 ~$75 ~$90
Claude Sonnet 4.6 (참고) $3 $15 $18

V4-Pro = Claude Opus 4.7 의 약 1/17, GPT-5.5 의 약 1/8 수준. V4-Flash 는 한 자리 더 내려갑니다. 환산 (1달러 = 1,400원) 기준으로 V4-Pro 입력 1M 토큰이 약 2,400원 이라는 가격이에요.

배포 채널

  • DeepSeek 공식:
  • chat.deepseek.com (즉시)
  • https://platform.deepseek.com 에서 API 키 발급
  • 모델 ID: deepseek-v4-pro / deepseek-v4-flash
  • OpenAI ChatCompletions + Anthropic API 양쪽 호환
  • NVIDIA NIM: build.nvidia.com — Day-0 endpoint[^7]
  • Hugging Face 오픈웨이트: V4-Pro / V4-Pro-Base / V4-Flash / V4-Flash-Base 4종[^4]
  • 3rd party 호스팅: Together AI[^12] · DeepInfra[^13] · OpenRouter
  • 구 모델 폐기: deepseek-chat / deepseek-reasoner2026년 7월 24일 부로 종료. 7월 24일 이전 마이그레이션 필수[^1]

안전·가드레일·시스템 카드 요약

V4 의 시스템 카드는 별도 PDF 가 아니라 Hugging Face 모델 카드 + 기술 리포트 PDF 안에 포함 된 형태입니다. 핵심 요약은 다음과 같습니다.

  • CBRN (Chemical·Biological·Radiological·Nuclear) 위험 평가: 자체 평가 결과 "high risk" 카테고리 미해당 명시
  • 사이버보안: SWE-bench·Terminal-Bench 강력 → 자율 익스플로잇 시나리오 에 대한 별도 모니터링 권고
  • 프롬프트 인젝션: 1M 컨텍스트 환경에서 입력에 외부 텍스트가 섞일 위험이 커짐. 에이전트 워크플로 적용 시 별도 검증 레이어 권고
  • 공개 가중치 영향: MIT 라이선스 + 1.6T 모델이 그대로 공개됨에 따라, 파인튜닝으로 가드레일을 우회할 가능성에 대해 연구 커뮤니티 공동 모니터링 을 명시

여기서 한 가지 솔직히 말하면, OpenAI·Anthropic 의 시스템 카드처럼 CBRN 평가 점수표·red team 결과·refusal rate 같은 정량 표 는 V4 에서 충분히 공개됐다고 보기 어렵습니다. 오픈웨이트 모델이 안전 평가의 검증 책임을 커뮤니티에 분산시키는 패턴이 V4 에서도 반복.


시장 임팩트 — 한국 관점

이미지 출처: NVIDIA Developer Blog — DeepSeek V4 표지 (DeepSeek-V4.webp, editorial fair use)

1) 한국 AI 스타트업·SI

V4-Flash 의 $0.14/$0.28 가격이 한국 스타트업의 워크로드 단위 수익성에 직격으로 영향을 줍니다. 챗봇·요약·분류·RAG 검색 응답 같은 대량 호출 워크로드 의 단가 압박이 절반 이상 줄어듭니다. 솔직히 단가 하락만 보면 이번 V4 출시는 한국 스타트업 입장에서 이번 달 가장 영향 큰 사건 이라고 봅니다.

2) 네이버·KT·NHN — 자체 모델 vs DeepSeek 호스팅

네이버 HyperCLOVA X, KT Mi:dm, NHN Cloud 의 자체 LLM 들은 비용·성능 양쪽에서 V4-Pro 와 직접 비교당하는 위치에 들어왔습니다. 한국어 강점이 있다고 해도 MMLU-Pro 87.5% / Codeforces 3206 짜리 모델을 MIT 라이선스로 공짜로 받을 수 있다면, 자체 모델 ROI 가 지금보다 훨씬 빡빡해집니다. 네이버·NHN 입장에서는 "그래서 우리가 V4-Pro 를 한국어로 파인튜닝해 호스팅하자" 가 합리적인 선택지가 될 수 있어요.

3) SK하이닉스·삼성 HBM 영향

V4 는 NVIDIA Blackwell B300·GB200 NVL72 에서 검증됐습니다[^7]. NVIDIA Blackwell 의 HBM3e/HBM4 공급은 SK하이닉스가 메인, 삼성이 진입 중. V4 의 출시로 NVIDIA Blackwell 수요가 추가 자극 되면 HBM 공급 사이클에도 변수가 생깁니다. 다만 V4 가 V3.2 대비 KV 캐시 90% 감소를 달성했기 때문에, 같은 HBM 용량으로 더 많은 동시 사용자 를 처리할 수 있어 단순히 "HBM 수요 증가" 가 아닐 수 있다는 점도 고려해야 합니다.

4) 국가 AI 컴퓨팅 센터·정부 정책

정부가 추진하는 국가 AI 컴퓨팅 센터의 호스팅 모델 후보로 V4 가 자연스럽게 올라옵니다. MIT 라이선스 + 한국어 호환 만 검증되면 공공·교육 영역에 깔기 가장 쉬운 옵션. 폐쇄형 미국 모델에 의존하지 않는 "AI 주권" 논의에서 V4 는 가장 신선한 카드가 됐습니다.


개발자·기업 관점 시사점

개인 개발자 / 1인 팀

  • 즉시 chat.deepseek.com 에서 무료로 V4-Pro 를 써볼 수 있음
  • 코딩 어시스턴트로 쓸 거면 OpenRouter / Together / DeepInfra 의 V4-Pro 엔드포인트가 가장 간편
  • 자가 호스팅은 1인 단위로는 비현실적 (1.6T 모델은 GB200 NVL72 급 인프라 필요)
  • V4-Flash 는 개인 개발자 단위에서도 자가 호스팅 시도 가능 — 단일 GB300 노드 또는 H100 8장 환경에서 작동

소규모 팀 (10명 이하)

  • API 비용 절감이 즉시 효과로 나옴 — Claude Sonnet 4.6 사용 중이면 V4-Pro 로 갈아타기만 해도 비용 1/3 수준
  • IDE 어시스턴트 (Cursor·Cline 등) 에 V4-Pro 가 곧 추가될 가능성 높음. 출시 1주 안에 대부분 IDE 가 V4 지원 가능
  • OpenAI/Anthropic API 호환 이라 코드 변경 거의 없음. Base URL 만 바꾸면 됨

대기업 / 엔터프라이즈

  • V4-Pro 자가 호스팅 = Hugging Face → Together · DeepInfra · 자체 NVIDIA NIM 클러스터 3루트
  • 미국 외 데이터 컴플라이언스가 중요한 금융·의료·공공은 V4 가 사실상 처음으로 MIT + 프런티어급 옵션이라는 의미
  • 다만 운영 라이선스·파인튜닝 후 보안 검증 책임은 자가 호스팅하는 측에 있음. 시스템 카드 공개 정도가 폐쇄형 프런티어보다 부족하다는 점은 별도 평가 필요

미지수·한계·공개되지 않은 점

  • 정확한 사전학습 데이터 셋 구성 (32T 토큰의 출처 분포·중국어/영어/코드 비율 등) 은 비공개
  • ARC-AGI 같은 일부 추론 평가에서 얼마나 격차가 있는지 정량 공개 없음
  • 실제 NVIDIA Blackwell 외 GPU (H100·H200·AMD MI325X·MI400) 에서의 추론 성능 벤치마크 공식 발표 없음
  • V4-Pro 의 추론 비용 (cost per query) 을 자가 호스팅했을 때 정확한 평균치는 운영 사례 데이터가 누적돼야 함
  • 한국어·일본어·아랍어 같은 비주류 언어 성능에 대한 별도 표는 미공개. SWE-bench Multilingual 76.2% 는 다언어 코드 능력일 뿐 자연어 다언어 능력 직접 측정 아님

내 생각

솔직히 이번 V4 는 그 동안 "오픈웨이트 = 항상 6개월 뒤" 라는 격언을 가장 가까운 거리까지 좁힌 사례입니다.

코딩 (LiveCodeBench 93.5 / Terminal-Bench 67.9) 에서 Claude Opus 4.7 을 앞섰다는 게 헤드라인이지만, 개인적으로 진짜 변화는 가격에 있다고 봅니다. V4-Pro 가 입출력 1M 토큰 합쳐 $5.22 라는 건, Claude Sonnet 4.6 ($18) 의 1/3 수준이거든요. 한국 스타트업이 LLM 기반 SaaS 를 운영할 때 "GPT 라이트" 가 아니라 "Opus 급" 모델을 단가 부담 없이 깔 수 있게 된 첫 시즌입니다.

다만 한 가지 경계할 점은 벤치마크 헤드라인 = 실사용 동등 이라고 받아들이면 안 된다는 점. 본인들이 기술 리포트에서 "프런티어 대비 3~6개월 격차" 라고 명시했고, ARC-AGI 같은 사후 추론에서는 GPT-5.5 에 의미 있게 뒤처집니다. 멀티 스텝 에이전트·어려운 추론·정확한 사실성 같은 곳에서는 아직 Claude·GPT 가 우위에요. 그래서 저는 워크로드를 나눠서 라우팅 하는 게 맞다고 봅니다 — 코딩·1M RAG·대량 챗봇은 V4, 어려운 분석·에이전트 멀티 호프·중요한 의사결정은 Claude/GPT.

그리고 시스템 카드 정량 공개가 OpenAI·Anthropic 보다 빈약하다는 점도 솔직히 짚고 갑니다. CBRN 평가 점수표·red team 결과 이런 게 있어야 엔터프라이즈가 자가 호스팅 결정할 때 안심하거든요. 오픈소스가 안전 검증 책임을 커뮤니티에 분산시키는 패턴은 이번에도 반복됐습니다.

7월 24일 구 모델 폐기 일정이 짧다는 점도 운영 중인 분들은 캘린더에 박아두시는 게 좋겠습니다. 마이그레이션 자체는 OpenAI/Anthropic 호환이라 쉽지만, 실제 프롬프트 거동이 미세하게 달라질 수 있어 회귀 테스트는 필수에요. 그럼 이만~


관련 링크 정리

공식

모델 카드·기술 리포트

분석·후기

호스팅

경쟁 모델 공식


참고 자료

[^1]: DeepSeek API Docs — V4 Preview Release (2026-04-24). https://api-docs.deepseek.com/news/news260424 [^2]: BenchLM — DeepSeek V4 Pro Benchmarks. https://benchlm.ai/models/deepseek-v4-pro [^3]: Macaron — DeepSeek V4 Benchmarks: MMLU, HumanEval & SWE-bench. https://macaron.im/blog/deepseek-v4-benchmarks [^4]: Hugging Face — deepseek-ai/DeepSeek-V4-Pro Model Card. https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro [^5]: DeepSeek-V4 Technical Report PDF. https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf [^6]: Simon Willison — DeepSeek V4: almost on the frontier, a fraction of the price. https://simonwillison.net/2026/Apr/24/deepseek-v4/ [^7]: NVIDIA Developer Blog — Build with DeepSeek V4 Using NVIDIA Blackwell. https://developer.nvidia.com/blog/build-with-deepseek-v4-using-nvidia-blackwell-and-gpu-accelerated-endpoints/ [^8]: Intelligent Living — DeepSeek V4 MoE Architecture Analysis. https://www.intelligentliving.co/deepseek-v4-moe-architecture-ai/ [^9]: BuildFastWithAI — DeepSeek V4-Pro Review. https://www.buildfastwithai.com/blogs/deepseek-v4-pro-review-2026 [^10]: AI Thority — From GPT-5.5 to DeepSeek V4. https://aithority.com/machine-learning/from-gpt-5-5-to-deepseek-v4-how-developers-are-building-smarter-ai-agents-with-multi-model-routing-in-2026/ [^11]: DataCamp — DeepSeek V4: Features, Benchmarks, and Comparisons. https://www.datacamp.com/blog/deepseek-v4 [^12]: Together AI — DeepSeek V4 Pro API. https://www.together.ai/models/deepseek-v4-pro [^13]: DeepInfra — DeepSeek-V4-Pro Demo. https://deepinfra.com/deepseek-ai/DeepSeek-V4-Pro