딥시크(DeepSeek) V4 공식 출시 — 1.6조 파라미터 오픈웨이트가 GPT-5.5·Claude Opus 4.7 코딩 벤치를 따라잡은 날
2026년 4월 24일 출시된 DeepSeek-V4-Pro / V4-Flash 의 아키텍처·벤치마크·가격·한국 영향까지 한 편으로 정
리. MoE 1.6T·49B active, 1M 컨텍스트, MIT 라이선스, V4-Pro 입력 $1.74·출력 $3.48.
TLDR - 무엇이: 딥시크(DeepSeek) 가 2026년 4월 24일 V4 시리즈를 공식 출시.
V4-Pro (1.6조 파라미터·49B active) + V4-Flash (284B·13B active) 두 모델, 둘 다 MIT 라이선스 오픈웨이트, 1M 토큰 컨텍스트 기본.
Why ? 코딩 벤치마크(LiveCodeBench 93.5 / Codeforces 3206) 에서 GPT-5.5·Claude Opus 4.7 을 추월하거나 박빙.
V4-Pro 가격이 Claude Opus 4.7 대비 약 1/7.
Who?
① 한국 AI 스타트업·SI — 비용 부담 큰 코딩·에이전트 워크로드를 자가 호스팅 가능
② SK하이닉스·삼성 HBM — DeepSeek 의 NVIDIA Blackwell 채택으로 HBM4 수요에 추가 변수
③ 폐쇄형 프런티어 (OpenAI·Anthropic) — "오픈웨이트가 3~6개월 뒤" 라는 격차가 이번에 또 한 번 좁혀짐.

오늘은 4월 24일 출시된 딥시크(DeepSeek) V4 를 한 편으로 정리하겠습니다. 공식 릴리스 노트, Hugging Face 모델 카드, 기술 리포트 PDF, NVIDIA Developer Blog 의 배포 가이드, 그리고 Simon Willison 같은 개발자 후기까지 한 자리에 묶었습니다. 표·벤치마크 수치·가격·한국 시장 임팩트까지 다 들어있어요. 길어요.

이미지 출처: DeepSeek API Docs (
/img/v4-spec-en.png, editorial fair use)
V4 시리즈 한눈에 보기 — 두 모델·MIT·1M 컨텍스트
V4 는 두 모델이 동시에 출시됐습니다. V4-Pro 가 플래그십이고, V4-Flash 가 비용 최적화형입니다. 둘 다 Mixture-of-Experts (MoE) 구조 라서 전체 파라미터는 거대하지만 토큰당 활성 파라미터 만 실제 연산에 들어갑니다.
| 항목 | V4-Pro | V4-Flash | 비고 |
|---|---|---|---|
| 전체 파라미터 | 1.6조 (1.6T) | 284B | 둘 다 MoE |
| 토큰당 활성 파라미터 | 49B | 13B | 추론 시 실제 연산량 |
| 컨텍스트 윈도 | 1M 토큰 | 1M 토큰 | 모든 공식 서비스 기본값 |
| 정밀도 | FP4 + FP8 혼합 | FP4 + FP8 혼합 | MoE 전문가는 FP4 |
| 추론 모드 | Thinking / Non-Thinking | Thinking / Non-Thinking | 동일 |
| 라이선스 | MIT | MIT | 상업 이용·파인튜닝 자유 |
| API 호환 | OpenAI · Anthropic | OpenAI · Anthropic | 헤더만 바꾸면 호환 |
| 호스팅 | chat.deepseek.com · API · HF · Together · DeepInfra · NIM | 동일 | 다중 호스팅 |
• MoE (Mixture-of-Experts): 거대 모델 안에 작은 "전문가 네트워크" 여러 개를 두고, 들어온 토큰마다 그 중 일부만 골라 쓰는 구조. 전체 파라미터는 크지만 추론 비용은 활성 파라미터에만 비례합니다.
• 1M 컨텍스트: 한 번에 입력받을 수 있는 토큰 수가 100만 개. 책 5~6권 분량을 한꺼번에 넣고 질문할 수 있는 수준.
• FP4 / FP8: 가중치를 4비트 / 8비트 부동소수점으로 표현하는 정밀도. 비트 수가 작을수록 메모리·속도 이득이지만 표현력 손실 위험. NVIDIA Blackwell B300 부터 FP4(NVFP4) 가 하드웨어 네이티브 지원.
여기서 진짜 눈여겨볼 포인트는 컨텍스트 1M 이 기본값 이라는 점입니다. GPT-5.5 도 1M 까지 찍지만 별도 모드·요금이 붙는 식인데, V4 는 그냥 켜져 있어요. 그리고 라이선스가 MIT. 회사 안에서 모델을 받아 호스팅하고, 파인튜닝하고, 상업 서비스에 쓰는 데 라이선스 비용이 0 입니다.
Llama 류의 "추가 조건 있는 commercial use" 가 아니라 진짜 MIT.
구 모델 deprecation 일정 도 같이 발표됐습니다. 기존 deepseek-chat / deepseek-reasoner 엔드포인트는 2026년 7월 24일 부로 폐기[^1]. 운영 중인 분들은 이제부터 마이그레이션 캘린더 잡는 게 맞습니다.
대표 성능 수치 — V4-Pro 가 코딩에서 프런티어와 붙는 그림
먼저 메인 비교표부터. V4-Pro 의 주요 벤치마크 점수와 GPT-5.5·Claude Opus 4.7 비교입니다[^2][^3][^4].

이미지 출처: DeepSeek API Docs (
/img/v4-benchmark.png, editorial fair use)
| 분야 | 벤치마크 | DeepSeek V4-Pro | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|---|
| 코딩 | LiveCodeBench | 93.5% | 미공개 | 88.8% |
| 코딩 | Codeforces Rating | 3206 | 3168 | 미공개 |
| 코딩 | SWE-bench Verified | 80.6% | 미공개 | 80.8% |
| 코딩 | Terminal-Bench 2.0 | 67.9% | 미공개 | 65.4% |
| 코딩 | SWE-bench Multilingual | 76.2% | 미공개 | 미공개 |
| 지식 | MMLU-Pro | 87.5% | 미공개 | 미공개 |
| 추론 | GPQA Diamond | 90.1% | 미공개 | 미공개 |
| 추론 | HMMT 2026 Feb | 95.2% | 미공개 | 96.2% |
| 종합 | HLE (Humanity's Last Exam) | 37.7% | 미공개 | 40.0% |
| 장문 | MRCR 1M 토큰 | 83.5% | 미공개 | 미공개 |
핵심 관전 포인트 세 가지로 요약하면, 코딩 (LiveCodeBench·Terminal-Bench) 에서는 V4-Pro 가 Claude Opus 4.7 을 앞섰고, SWE-bench Verified·HMMT·HLE 같은 추론·검증 항목은 Claude 가 0.2~3 포인트 우위, Codeforces 점수는 V4-Pro 가 GPT-5.5 보다 38점 높음. 코딩 벤치마크에서 처음으로 오픈웨이트가 폐쇄형 프런티어를 앞섰다는 점이 이번 출시의 가장 큰 의미입니다.
다만 단서가 있어요. DeepSeek 본인들이 기술 리포트에서 "프런티어 대비 약 3~6개월 격차" 라고 명시[^5]. ARC-AGI 같은 일부 사후 추론 평가에서는 GPT-5.5 에 의미 있게 뒤처졌고, "벤치마크 헤드라인 = 실사용 동등" 으로 보면 안 됩니다.
V4-Flash — 13B 액티브로 Pro 와 거의 같은 추론
V4-Flash 는 별도로 떼서 보겠습니다. 284B 전체·13B 액티브 라는 작은 활성 파라미터인데도 추론 능력이 V4-Pro 에 "근접한다" 는 게 공식 표현입니다.

이미지 출처: DeepSeek API Docs (
/img/v4-benchmark-2.png, editorial fair use)
| 비교 항목 | V4-Pro (49B active) | V4-Flash (13B active) | 차이 |
|---|---|---|---|
| LiveCodeBench | 93.5% | 약 89% (공식 추정) | 4.5p |
| Codeforces | 3206 | ~2900 | ~300 |
| MMLU-Pro | 87.5% | ~85% | ~2.5p |
| 입력 가격 (M tokens) | $1.74 | $0.14 | 1/12 |
| 출력 가격 (M tokens) | $3.48 | $0.28 | 1/12 |
| 컨텍스트 | 1M | 1M | 동일 |
• 활성 파라미터(Active Parameters): MoE 모델에서 한 토큰을 생성할 때 실제로 계산에 참여하는 파라미터. 전체가 아니라 활성만 본다는 게 MoE 의 핵심 효율 트릭.
• Codeforces Rating: 경쟁 프로그래밍 사이트 Codeforces 의 ELO 형 등급. 인간 그랜드마스터가 보통 2400~3000 대.
체감상 V4-Flash 가 진짜 무서운 건 가격 대비 성능 입니다. Simon Willison 이 자기 블로그에 "$0.14/$0.28 는 OpenAI Nano 를 이기고 Gemini 의 budget 라인과 같은 영역" 이라고 평가했어요[^6]. 한국 스타트업 입장에서 보면 단가 차이가 워크로드 단위 수익성에 직격으로 영향을 줍니다. 챗봇·요약·분류·간단한 에이전트 처럼 V4-Pro 까지 쓸 일 없는 케이스에 V4-Flash 를 깔면 OpenAI 4o-mini·Claude Haiku 대비 압도적인 단가가 됩니다.
아키텍처·기능 변경점 — deep dive
V4 의 진짜 변화는 모델 크기가 아니라 아키텍처 효율 에 있어요. 1.6T 짜리 전체 파라미터를 49B 액티브로 돌리면서, 그것도 1M 컨텍스트에서 V3.2 대비 추론 FLOP 73% 감소·KV 캐시 90% 감소 를 달성했습니다[^7][^8].

이미지 출처: DeepSeek API Docs (
/img/v4-efficiency.png, editorial fair use)
1) 하이브리드 어텐션 — CSA + HCA
V4 는 두 종류의 압축 어텐션을 섞어 씁니다. Compressed Sparse Attention (CSA) 와 Heavily Compressed Attention (HCA). 한쪽은 토큰을 희소하게 묶어 보고, 다른 쪽은 더 강하게 압축한 형태로 장문 컨텍스트의 메모리를 줄입니다.
• 어텐션 (Attention): Transformer 의 핵심 연산. 입력 토큰들 간의 관계를 가중치로 계산. 컨텍스트가 길어질수록 메모리·연산이 N² 로 폭증해서, 1M 컨텍스트는 어텐션을 어떻게 줄이느냐가 거의 전부.
• KV Cache: 추론 도중 이전 토큰들의 Key·Value 결과를 저장해 재사용하는 캐시. 길어지는 응답·1M 컨텍스트에서 이 캐시 메모리가 GPU 메모리의 가장 큰 변수.
이 둘을 조합하면 1M 컨텍스트에서도 메모리 폭발 없이 추론 가능 한 모델이 만들어집니다. NVIDIA 블로그가 측정한 NVL72 GB200 환경에서 사용자당 150 토큰/초 이상이 나오는 게 이 아키텍처 덕분이에요[^7].
2) Manifold-Constrained Hyper-Connections (mHC)
전통적인 잔차 연결(residual connection) 을 강화한 변형. 레이어 간 신호 전파를 안정화해서 모델 깊이를 늘릴 때 흔히 생기는 표현력 저하를 줄입니다. 이 부분은 논문 PDF 에서 수식까지 공개돼 있어요[^9].
3) Muon 옵티마이저로 사전학습
Adam 계열 대신 Muon 옵티마이저를 채택. 큰 MoE 모델에서 수렴 속도와 학습 안정성 을 동시에 잡으려는 선택. 32T 토큰 사전학습을 일정 비용 안에 마무리하기 위한 도구 선택으로 보입니다.
4) FP4 + FP8 혼합 정밀도
가장 비싼 MoE 전문가 가중치를 FP4 로 양자화하고, 나머지(어텐션·라우팅 등)는 FP8 로 유지. NVIDIA Blackwell 부터는 FP4(NVFP4) 가 하드웨어 네이티브라 추가 변환 비용이 거의 없습니다.

이미지 출처: DeepSeek API Docs (
/img/v4-ppt-en.png, editorial fair use)
• NVFP4: NVIDIA Blackwell 세대(B200·B300·GB200) 부터 하드웨어 네이티브로 지원되는 FP4 표현 방식. 기존 FP4 보다 표현력 손실을 줄이도록 NVIDIA 가 다듬은 형식.
• SGLang / vLLM: 거대 LLM 을 효율적으로 서빙하기 위한 오픈소스 추론 엔진. KV 캐시 공유·연속 배칭·prefill-decode 분리 같은 최적화를 한 번에 묶어 둠. NVIDIA NIM 도 내부적으로 이 둘을 활용.
5) Two-Stage Post-Training
사후학습은 두 단계. 먼저 도메인별 전문가 모델 을 SFT + GRPO 강화학습으로 따로 키우고, 그 다음 on-policy distillation 으로 단일 모델에 통합. 이게 V4-Pro 가 코딩(LiveCodeBench)·수학(HMMT)·일반 지식(MMLU-Pro) 에서 동시에 강한 이유로 보입니다.
분야별 벤치마크 — 표 3개로 정리
코딩

이미지 출처: Hugging Face — DeepSeek-V4-Pro 모델 카드 (
assets/dsv4_performance.png, editorial fair use)
| 벤치마크 | V4-Pro | Claude Opus 4.7 | GPT-5.5 | DeepSeek V3.2 |
|---|---|---|---|---|
| LiveCodeBench | 93.5% | 88.8% | 미공개 | ~85% |
| SWE-bench Verified | 80.6% | 80.8% | 미공개 | ~71% |
| Terminal-Bench 2.0 | 67.9% | 65.4% | 미공개 | ~52% |
| Codeforces Rating | 3206 | 미공개 | 3168 | ~2700 |
| SWE-bench Multilingual | 76.2% | 미공개 | 미공개 | 미공개 |
코딩에서는 사실상 V4-Pro 가 오픈웨이트 SOTA[^10]. SWE-bench 는 Claude 가 0.2p 차로 앞이지만, Terminal-Bench (실제 터미널·셸 사용 에이전트 벤치) 는 V4-Pro 가 2.5p 위. 이게 의미 있는 게, 단순 함수 작성보다 실제 IDE·CLI 환경에서 멀티 스텝 에이전트로 돌아가는 능력 이 코딩 어시스턴트 실사용에 더 가깝거든요.
추론·수학·지식
| 벤치마크 | V4-Pro | Claude Opus 4.7 | GPT-5.5 (참고) |
|---|---|---|---|
| MMLU-Pro | 87.5% | 미공개 | 미공개 |
| GPQA Diamond | 90.1% | 미공개 | ~89% |
| HMMT 2026 Feb | 95.2% | 96.2% | 미공개 |
| IMOAnswerBench | 89.8% | 미공개 | 미공개 |
| HLE (Humanity's Last Exam) | 37.7% | 40.0% | 미공개 |
| ARC-AGI | 미공개·격차 인정 | — | 앞섬 |
추론·수학에서는 V4-Pro 가 Claude Opus 4.7 을 추월하지 못합니다. 기술 리포트에서도 솔직하게 "sustained multi-step reasoning 에서 격차" 를 인정[^5]. ARC-AGI 가 대표 사례.
장문 컨텍스트
| 벤치마크 | V4-Pro | 비고 |
|---|---|---|
| MRCR (1M 토큰) | 83.5% | 1M 컨텍스트 검색 정확도 |
| CorpusQA (1M) | 62.0% | 1M 컨텍스트 코퍼스 QA |
| 출력 최대 | 384K 토큰 | "Think Max" 모드 |
1M 컨텍스트에서 검색 정확도(MRCR) 가 83.5% 면 거의 사용 가능한 수준. Claude Sonnet 4.5 가 1M MRCR 에서 70~75% 사이라서, 장문 RAG·코드베이스 인덱싱 워크로드에 V4-Pro 가 매력적인 후보가 됐습니다.
실제 사용 사례 — 개발자 인용 3건
Simon Willison: "이건 매우, 매우 저렴한 모델"
"DeepSeek V4 is a very, very inexpensive model. … V4-Flash 의 $0.14 / $0.28 가격은 OpenAI Nano 를 이기고 Gemini 의 budget 옵션과 같은 영역이다. V4-Pro 는 $1.74 / $3.48 라서 Claude Sonnet 의 $3 / $15 를 크게 깎고, Claude Opus 보다 훨씬 아래에 위치한다."[^6]
Simon Willison 이 자기 표준 테스트인 "자전거 탄 펠리컨 SVG 그리기" 로 두 모델을 비교했는데, V4-Pro 결과는 본문이 너무 큰 약점이 있었고, V4-Flash 결과는 좀 더 균형 잡힌 출력이 나왔다고 평가했습니다. 변동성이 있다는 정직한 후기.

이미지 출처: Simon Willison's blog — V4-Pro 펠리컨 SVG 출력 (
deepseek-v4-pro.png, editorial fair use)

이미지 출처: Simon Willison's blog — V4-Flash 펠리컨 SVG 출력 (
deepseek-v4-flash.png, editorial fair use)
NVIDIA: "Day-0 NIM 배포"
"DeepSeek V4 는 NVIDIA Blackwell B300 과 GB200 NVL72 에서 사용자당 150 토큰/초 이상을 달성한다. NVFP4 네이티브 지원과 SGLang·vLLM 의 최적화 레시피를 통해 day-0 부터 build.nvidia.com 의 NIM 엔드포인트에서 호출 가능."[^7]
NVIDIA 가 출시 당일 자기네 Blackwell 환경에서 작동하는 데모를 공개했다는 건, NVIDIA 입장에서 DeepSeek 가 자기 GPU 의 쇼케이스 케이스가 됐다는 뜻이기도 합니다.
DataCamp: "오픈웨이트가 프런티어와 부딪히는 첫 시즌"
"V4-Pro 는 오픈웨이트 SOTA 로서 폐쇄형 프런티어와 박빙 영역에 들어왔다. 동시에 1.6T 같은 거대 모델을 자가 호스팅할 수 있는 인프라는 여전히 한정돼 있어, 사실상 NVIDIA NIM·Together·DeepInfra·OpenRouter 같은 호스팅 프로바이더가 단기 수혜처."[^11]
여기 추가로 하나 짚자면, MIT 라이선스라는 게 한국 스타트업 같은 작은 팀에게는 "호스팅 비용만 감당하면 GPT-5.5 급 코딩 능력을 사내 모델로 가질 수 있다" 는 뜻이 됩니다. 데이터 보안·미국 외 클라우드 의존 같은 컴플라이언스 이슈가 있는 곳에 매력적입니다.
경쟁 구도 — 워크로드별 유불리

이미지 출처: NVIDIA Developer Blog — Pareto frontier 차트 (
pareto-new-2.webp, editorial fair use)
| 워크로드 | V4-Pro | V4-Flash | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| 코딩 어시스턴트 (IDE 통합) | 🟢 강력 | 🟡 중간 | 🟢 강력 | 🟢 강력 |
| 멀티 스텝 에이전트 (long-horizon) | 🟡 중간 | 🔴 약함 | 🟢 강력 | 🟢 강력 |
| 사실 추론 (HLE·ARC-AGI) | 🔴 약함 | 🔴 약함 | 🟢 강력 | 🟢 강력 |
| 1M 컨텍스트 RAG | 🟢 강력 | 🟢 강력 | 🟡 중간 | 🟡 중간 |
| 가격 민감 챗봇 | 🟡 중간 | 🟢 압도적 | 🔴 비쌈 | 🟡 중간 |
| 수학·과학 리서치 | 🟡 중간 | 🔴 약함 | 🟢 강력 | 🟢 강력 |
| 자가 호스팅 | 🟢 가능 (MIT) | 🟢 가능 (MIT) | 🔴 불가 | 🔴 불가 |
| 한국 데이터 컴플라이언스 | 🟢 자가 호스팅 OK | 🟢 자가 호스팅 OK | 🟡 미국 클라우드 | 🟡 미국 클라우드 |
요약하면, 코딩 어시스턴트와 1M RAG, 가격 민감 워크로드 는 V4 라인이 우위. 장기 멀티 스텝 에이전트와 어려운 추론 은 여전히 Claude·GPT 가 이기는 영역. 자가 호스팅과 컴플라이언스가 중요한 곳에는 V4 가 거의 유일한 프런티어급 선택지가 됩니다.
이용 범위·가격·배포 일정

이미지 출처: DeepSeek API Docs (
/img/v4-price-en.png, editorial fair use)
가격 (per 1M tokens, 캐시 미적용 기준)
| 모델 | 입력 (per 1M tokens) | 출력 (per 1M tokens) | 1M 입출력 합 (예시) |
|---|---|---|---|
| DeepSeek V4-Pro | $1.74 | $3.48 | ~$5.22 |
| DeepSeek V4-Flash | $0.14 | $0.28 | ~$0.42 |
| GPT-5.5 (참고) | ~$10 | ~$30 | ~$40 |
| Claude Opus 4.7 (참고) | ~$15 | ~$75 | ~$90 |
| Claude Sonnet 4.6 (참고) | $3 | $15 | $18 |
V4-Pro = Claude Opus 4.7 의 약 1/17, GPT-5.5 의 약 1/8 수준. V4-Flash 는 한 자리 더 내려갑니다. 환산 (1달러 = 1,400원) 기준으로 V4-Pro 입력 1M 토큰이 약 2,400원 이라는 가격이에요.
배포 채널
- DeepSeek 공식:
- chat.deepseek.com (즉시)
- https://platform.deepseek.com 에서 API 키 발급
- 모델 ID:
deepseek-v4-pro/deepseek-v4-flash - OpenAI ChatCompletions + Anthropic API 양쪽 호환
- NVIDIA NIM: build.nvidia.com — Day-0 endpoint[^7]
- Hugging Face 오픈웨이트: V4-Pro / V4-Pro-Base / V4-Flash / V4-Flash-Base 4종[^4]
- 3rd party 호스팅: Together AI[^12] · DeepInfra[^13] · OpenRouter
- 구 모델 폐기:
deepseek-chat/deepseek-reasoner는 2026년 7월 24일 부로 종료. 7월 24일 이전 마이그레이션 필수[^1]
안전·가드레일·시스템 카드 요약
V4 의 시스템 카드는 별도 PDF 가 아니라 Hugging Face 모델 카드 + 기술 리포트 PDF 안에 포함 된 형태입니다. 핵심 요약은 다음과 같습니다.
- CBRN (Chemical·Biological·Radiological·Nuclear) 위험 평가: 자체 평가 결과 "high risk" 카테고리 미해당 명시
- 사이버보안: SWE-bench·Terminal-Bench 강력 → 자율 익스플로잇 시나리오 에 대한 별도 모니터링 권고
- 프롬프트 인젝션: 1M 컨텍스트 환경에서 입력에 외부 텍스트가 섞일 위험이 커짐. 에이전트 워크플로 적용 시 별도 검증 레이어 권고
- 공개 가중치 영향: MIT 라이선스 + 1.6T 모델이 그대로 공개됨에 따라, 파인튜닝으로 가드레일을 우회할 가능성에 대해 연구 커뮤니티 공동 모니터링 을 명시
여기서 한 가지 솔직히 말하면, OpenAI·Anthropic 의 시스템 카드처럼 CBRN 평가 점수표·red team 결과·refusal rate 같은 정량 표 는 V4 에서 충분히 공개됐다고 보기 어렵습니다. 오픈웨이트 모델이 안전 평가의 검증 책임을 커뮤니티에 분산시키는 패턴이 V4 에서도 반복.
시장 임팩트 — 한국 관점

이미지 출처: NVIDIA Developer Blog — DeepSeek V4 표지 (
DeepSeek-V4.webp, editorial fair use)
1) 한국 AI 스타트업·SI
V4-Flash 의 $0.14/$0.28 가격이 한국 스타트업의 워크로드 단위 수익성에 직격으로 영향을 줍니다. 챗봇·요약·분류·RAG 검색 응답 같은 대량 호출 워크로드 의 단가 압박이 절반 이상 줄어듭니다. 솔직히 단가 하락만 보면 이번 V4 출시는 한국 스타트업 입장에서 이번 달 가장 영향 큰 사건 이라고 봅니다.
2) 네이버·KT·NHN — 자체 모델 vs DeepSeek 호스팅
네이버 HyperCLOVA X, KT Mi:dm, NHN Cloud 의 자체 LLM 들은 비용·성능 양쪽에서 V4-Pro 와 직접 비교당하는 위치에 들어왔습니다. 한국어 강점이 있다고 해도 MMLU-Pro 87.5% / Codeforces 3206 짜리 모델을 MIT 라이선스로 공짜로 받을 수 있다면, 자체 모델 ROI 가 지금보다 훨씬 빡빡해집니다. 네이버·NHN 입장에서는 "그래서 우리가 V4-Pro 를 한국어로 파인튜닝해 호스팅하자" 가 합리적인 선택지가 될 수 있어요.
3) SK하이닉스·삼성 HBM 영향
V4 는 NVIDIA Blackwell B300·GB200 NVL72 에서 검증됐습니다[^7]. NVIDIA Blackwell 의 HBM3e/HBM4 공급은 SK하이닉스가 메인, 삼성이 진입 중. V4 의 출시로 NVIDIA Blackwell 수요가 추가 자극 되면 HBM 공급 사이클에도 변수가 생깁니다. 다만 V4 가 V3.2 대비 KV 캐시 90% 감소를 달성했기 때문에, 같은 HBM 용량으로 더 많은 동시 사용자 를 처리할 수 있어 단순히 "HBM 수요 증가" 가 아닐 수 있다는 점도 고려해야 합니다.
4) 국가 AI 컴퓨팅 센터·정부 정책
정부가 추진하는 국가 AI 컴퓨팅 센터의 호스팅 모델 후보로 V4 가 자연스럽게 올라옵니다. MIT 라이선스 + 한국어 호환 만 검증되면 공공·교육 영역에 깔기 가장 쉬운 옵션. 폐쇄형 미국 모델에 의존하지 않는 "AI 주권" 논의에서 V4 는 가장 신선한 카드가 됐습니다.
개발자·기업 관점 시사점
개인 개발자 / 1인 팀
- 즉시 chat.deepseek.com 에서 무료로 V4-Pro 를 써볼 수 있음
- 코딩 어시스턴트로 쓸 거면 OpenRouter / Together / DeepInfra 의 V4-Pro 엔드포인트가 가장 간편
- 자가 호스팅은 1인 단위로는 비현실적 (1.6T 모델은 GB200 NVL72 급 인프라 필요)
- V4-Flash 는 개인 개발자 단위에서도 자가 호스팅 시도 가능 — 단일 GB300 노드 또는 H100 8장 환경에서 작동
소규모 팀 (10명 이하)
- API 비용 절감이 즉시 효과로 나옴 — Claude Sonnet 4.6 사용 중이면 V4-Pro 로 갈아타기만 해도 비용 1/3 수준
- IDE 어시스턴트 (Cursor·Cline 등) 에 V4-Pro 가 곧 추가될 가능성 높음. 출시 1주 안에 대부분 IDE 가 V4 지원 가능
- OpenAI/Anthropic API 호환 이라 코드 변경 거의 없음. Base URL 만 바꾸면 됨
대기업 / 엔터프라이즈
- V4-Pro 자가 호스팅 = Hugging Face → Together · DeepInfra · 자체 NVIDIA NIM 클러스터 3루트
- 미국 외 데이터 컴플라이언스가 중요한 금융·의료·공공은 V4 가 사실상 처음으로 MIT + 프런티어급 옵션이라는 의미
- 다만 운영 라이선스·파인튜닝 후 보안 검증 책임은 자가 호스팅하는 측에 있음. 시스템 카드 공개 정도가 폐쇄형 프런티어보다 부족하다는 점은 별도 평가 필요
미지수·한계·공개되지 않은 점
- 정확한 사전학습 데이터 셋 구성 (32T 토큰의 출처 분포·중국어/영어/코드 비율 등) 은 비공개
- ARC-AGI 같은 일부 추론 평가에서 얼마나 격차가 있는지 정량 공개 없음
- 실제 NVIDIA Blackwell 외 GPU (H100·H200·AMD MI325X·MI400) 에서의 추론 성능 벤치마크 공식 발표 없음
- V4-Pro 의 추론 비용 (cost per query) 을 자가 호스팅했을 때 정확한 평균치는 운영 사례 데이터가 누적돼야 함
- 한국어·일본어·아랍어 같은 비주류 언어 성능에 대한 별도 표는 미공개. SWE-bench Multilingual 76.2% 는 다언어 코드 능력일 뿐 자연어 다언어 능력 직접 측정 아님
내 생각
솔직히 이번 V4 는 그 동안 "오픈웨이트 = 항상 6개월 뒤" 라는 격언을 가장 가까운 거리까지 좁힌 사례입니다.
코딩 (LiveCodeBench 93.5 / Terminal-Bench 67.9) 에서 Claude Opus 4.7 을 앞섰다는 게 헤드라인이지만, 개인적으로 진짜 변화는 가격에 있다고 봅니다. V4-Pro 가 입출력 1M 토큰 합쳐 $5.22 라는 건, Claude Sonnet 4.6 ($18) 의 1/3 수준이거든요. 한국 스타트업이 LLM 기반 SaaS 를 운영할 때 "GPT 라이트" 가 아니라 "Opus 급" 모델을 단가 부담 없이 깔 수 있게 된 첫 시즌입니다.
다만 한 가지 경계할 점은 벤치마크 헤드라인 = 실사용 동등 이라고 받아들이면 안 된다는 점. 본인들이 기술 리포트에서 "프런티어 대비 3~6개월 격차" 라고 명시했고, ARC-AGI 같은 사후 추론에서는 GPT-5.5 에 의미 있게 뒤처집니다. 멀티 스텝 에이전트·어려운 추론·정확한 사실성 같은 곳에서는 아직 Claude·GPT 가 우위에요. 그래서 저는 워크로드를 나눠서 라우팅 하는 게 맞다고 봅니다 — 코딩·1M RAG·대량 챗봇은 V4, 어려운 분석·에이전트 멀티 호프·중요한 의사결정은 Claude/GPT.
그리고 시스템 카드 정량 공개가 OpenAI·Anthropic 보다 빈약하다는 점도 솔직히 짚고 갑니다. CBRN 평가 점수표·red team 결과 이런 게 있어야 엔터프라이즈가 자가 호스팅 결정할 때 안심하거든요. 오픈소스가 안전 검증 책임을 커뮤니티에 분산시키는 패턴은 이번에도 반복됐습니다.
7월 24일 구 모델 폐기 일정이 짧다는 점도 운영 중인 분들은 캘린더에 박아두시는 게 좋겠습니다. 마이그레이션 자체는 OpenAI/Anthropic 호환이라 쉽지만, 실제 프롬프트 거동이 미세하게 달라질 수 있어 회귀 테스트는 필수에요. 그럼 이만~
관련 링크 정리
공식
모델 카드·기술 리포트
- Hugging Face — DeepSeek-V4-Pro
- Hugging Face — DeepSeek-V4-Flash
- 기술 리포트 PDF (DeepSeek_V4.pdf)
- DeepSeek-V4 컬렉션
분석·후기
- Simon Willison — DeepSeek V4 후기
- NVIDIA Developer Blog — Build with DeepSeek V4
- DataCamp — DeepSeek V4 종합 리뷰
- Macaron — DeepSeek V4 벤치마크 정리
- BenchLM — V4-Pro 리더보드
- Vals AI — V4-Pro 평가
호스팅
경쟁 모델 공식
참고 자료
[^1]: DeepSeek API Docs — V4 Preview Release (2026-04-24). https://api-docs.deepseek.com/news/news260424 [^2]: BenchLM — DeepSeek V4 Pro Benchmarks. https://benchlm.ai/models/deepseek-v4-pro [^3]: Macaron — DeepSeek V4 Benchmarks: MMLU, HumanEval & SWE-bench. https://macaron.im/blog/deepseek-v4-benchmarks [^4]: Hugging Face — deepseek-ai/DeepSeek-V4-Pro Model Card. https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro [^5]: DeepSeek-V4 Technical Report PDF. https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf [^6]: Simon Willison — DeepSeek V4: almost on the frontier, a fraction of the price. https://simonwillison.net/2026/Apr/24/deepseek-v4/ [^7]: NVIDIA Developer Blog — Build with DeepSeek V4 Using NVIDIA Blackwell. https://developer.nvidia.com/blog/build-with-deepseek-v4-using-nvidia-blackwell-and-gpu-accelerated-endpoints/ [^8]: Intelligent Living — DeepSeek V4 MoE Architecture Analysis. https://www.intelligentliving.co/deepseek-v4-moe-architecture-ai/ [^9]: BuildFastWithAI — DeepSeek V4-Pro Review. https://www.buildfastwithai.com/blogs/deepseek-v4-pro-review-2026 [^10]: AI Thority — From GPT-5.5 to DeepSeek V4. https://aithority.com/machine-learning/from-gpt-5-5-to-deepseek-v4-how-developers-are-building-smarter-ai-agents-with-multi-model-routing-in-2026/ [^11]: DataCamp — DeepSeek V4: Features, Benchmarks, and Comparisons. https://www.datacamp.com/blog/deepseek-v4 [^12]: Together AI — DeepSeek V4 Pro API. https://www.together.ai/models/deepseek-v4-pro [^13]: DeepInfra — DeepSeek-V4-Pro Demo. https://deepinfra.com/deepseek-ai/DeepSeek-V4-Pro
'AI 뉴스' 카테고리의 다른 글
| 엔트로픽이 스페이스X 콜로서스 통째로 빌린 날 — 220,000 GPU 즉시 가용 + 우주 GW급 컴퓨트라는 다음 카드 (0) | 2026.05.07 |
|---|---|
| 메타(Meta), AI로 키·뼈 보고 청소년 자동 식별 — '얼굴 인식 아니다' 해명에도 불붙은 사생활 논쟁 (0) | 2026.05.06 |
| 앤트로픽(Anthropic) 'Project Deal' — AI 에이전트끼리 4천 달러 거래한 실험 (0) | 2026.04.27 |
| GPT-5.5 공식 출시 — 코딩·지식노동·과학 연구를 겨냥한 '업무용' 에이전트 AI 심층 정리 (1) | 2026.04.25 |
| GPT-5.5 '스푸드(Spud)' 유출 — OpenAI가 Codex에 흘린 차세대 모델, 출시는 오늘일까 (0) | 2026.04.23 |