AI 기술 & 반도체 해설

Positron AI, 엔비디아(NVIDIA) 영토 첫 균열 — 오라클(Oracle) 딜이 보여준 HBM 없는 추론 가속기 로드맵

AI 디코드 2026. 4. 21. 16:16

Positron AI, 엔비디아(NVIDIA) 영토 첫 균열 — 오라클(Oracle) 딜이 보여준 HBM 없는 추론 가속기 로드맵

AI 반도체 해설 2026. 04. 21. 약 20분 읽기

Positron AI가 오라클(Oracle)과 하이퍼스케일러 첫 배포 계약을 체결했습니다. FPGA 기반 Atlas는 엔비디아 H200 DGX 대비 토큰당 전력 3분의 1, 차세대 Asimov는 HBM 버리고 LPDDR5X 2TB. 한국 메모리·AI 가속기 산업 관점에서 분석합니다.

한 줄 결론

Positron AI가 2026년 4월 20일 오라클(Oracle)과 하이퍼스케일러 배포 계약을 체결했습니다. 엔비디아(NVIDIA)·AMD가 아닌 AI 가속기가 대형 퍼블릭 클라우드에 실제로 올라가는 첫 사례이고, 차세대 칩 Asimov는 "HBM을 버리고 LPDDR5X 2TB를 얹는다"는 과감한 설계로 메모리 공급망 그림을 뒤흔들 여지가 있습니다.

상단 고지

이 글은 공식 자료와 해외 분석을 종합한 심층 해설이며, 실물 테스트 결과가 아닙니다. Positron AI 칩은 현재 B2B 하이퍼스케일러 공급 단계로, 일반 사용자가 구매·사용할 수 없습니다[1][5].

한눈에 보는 핵심

항목	현세대 Atlas	차세대 Asimov (예정)
형태	FPGA 기반 추론 서버	전용 ASIC
메모리	자체 메모리 최적화 아키텍처	LPDDR5X 2TB/칩, CXL 확장 시 2.3TB
전원	2000W 공랭 서버	8-way Titan 서버 구성
외부 네트워크	기존 이더넷	16 Tb/s
출시	2026년 생산·출하 중	2026년 말 테이프아웃, 2027 초 양산[3]
경쟁 대상	NVIDIA H200 DGX	NVIDIA Vera Rubin 세대

280

Llama 3.1 8B tok/s/user (Atlas, 2kW)

93%

실측 메모리 대역폭 활용률

$230M

Series B (2026-02, 밸류 $1B+)

무슨 일이 있었나

Positron AI가 오라클 클라우드 인프라(Oracle Cloud Infrastructure)와 체결한 엔비디아(NVIDIA)·AMD가 아닌 첫 하이퍼스케일러 배포 계약을 EE Times가 2026년 4월 20일 보도했습니다[1]. 정확한 칩 수량·달러 규모는 향후 수개월 내 추가 발표 예정이고, 이번 딜은 현세대 Atlas (FPGA 기반 Transformer 추론 서버)의 검증과 2세대 Asimov ASIC 기반 Titan 서버의 2027년 중반 상용 배포를 위한 발판으로 자리매김했습니다[1][3]. Positron은 2026년 2월 Arm·카타르 국부펀드 등이 참여한 2억 3천만 달러 Series B로 유니콘에 올랐고[2][4], 창업 34개월 만의 기록입니다.

POSITRON 로고가 새겨진 FPGA 기반 추론 서버 타워

📖 용어 풀이
• AI 추론 가속기: 이미 학습된 모델이 실제 서비스에서 답변을 만들어낼 때(추론) 성능·전력을 쥐어짜도록 특화한 칩이에요. 학습용 GPU보다 훨씬 좁은 용도에 최적화돼요.
• FPGA: 회로를 "소프트웨어처럼 바꿔 끼울 수 있는" 반도체. Positron은 초기 세대를 FPGA로 빠르게 제품화했어요.
• ASIC: 목적이 정해진 전용 회로. 양산 단계에 가면 FPGA 대비 전력·성능이 뛰어요. Positron 2세대 Asimov가 여기로 넘어갑니다.
• 하이퍼스케일러: AWS·Azure·Google Cloud·Oracle Cloud 같은 글로벌 초대형 클라우드 사업자.

아키텍처 변경점 — NVIDIA H200 대비 세 가지

결론부터 말씀드리면, Positron은 "학습까지 다 되는 GPU"를 포기하고 "Transformer 추론만 잘하는 칩"으로 설계 반경을 확 좁혔습니다.

첫째, 메모리 대역폭 실효 활용률이 질적으로 다릅니다. Atlas는 실제 Transformer 워크로드에서 메모리 대역폭의 93%를 써내고, 일반 GPU는 10~30%에 머문다는 것이 Positron 측 주장입니다[3][6]. Llama 3.1 8B·BF16 구간에서 2000W 서버가 사용자당 280 토큰/초를 뽑고, 같은 조건 NVIDIA H200 DGX 8-way는 약 180 토큰/초 수준이라는 Tom's Hardware 벤치마크 인용이 같이 공개됐습니다[6].

둘째, HBM을 버리고 LPDDR5X로 간다는 결정. 2세대 Asimov ASIC은 HBM을 쓰지 않고 LPDDR5X 2TB를 칩 하나당 얹습니다[3][7]. CXL로 확장하면 칩당 2.3TB까지 늘어나고, 8-way Titan 서버 한 대가 총 8TB 메모리를 갖게 돼 최대 16조 파라미터 모델을 단일 서버에 싣는 그림이 나옵니다[3]. HBM 대비 대역폭은 낮지만 용량·전력·가격이 압도적으로 유리합니다.

셋째, 16 Tb/s 외부 네트워크. 랙 규모에서 다수 서버가 묶여 돌아갈 때 병목이 풀리는 설계입니다[3]. NVIDIA NVLink·NVSwitch를 전면 회피한 채 이더넷·CXL 생태계로 붙는 구조입니다.

📖 용어 풀이
• HBM (High Bandwidth Memory): GPU 옆에 수직으로 쌓는 초고속 메모리. 대역폭은 최고인데 공급이 달리고 가격이 비쌉니다. 삼성·SK하이닉스가 세계 생산의 대부분을 차지해요.
• LPDDR5X: 스마트폰·노트북용 저전력 DRAM. HBM보다 대역폭은 낮지만 가격·용량·전력에서 유리.
• CXL: CPU·가속기·메모리를 초고속으로 묶는 차세대 인터커넥트 규격. 메모리 풀링이 핵심.
• NVLink: NVIDIA 전용 초고속 GPU 간 연결 기술. NVIDIA 독점 생태계의 관문 역할.

스펙과 벤치마크

Atlas (현세대, FPGA 기반) - Llama 3.1 8B·BF16·2000W: 사용자당 280 토큰/초 (Tom's Hardware 실측 보도)[6] - NVIDIA H200 DGX 8-way 동일 조건 약 180 토큰/초 → 1.56배[6] - 성능/전력 4배, 성능/달러 3배 vs NVIDIA (Positron 공식 주장)[3] - 단일 2kW 서버에서 최대 0.5조 파라미터 모델 구동[6]

Asimov (2세대 ASIC, 2027 초 양산 예정) - 메모리: LPDDR5X 2TB/ASIC, CXL 확장 시 2.3TB[3][7] - 외부 네트워크: 16 Tb/s[3] - Titan 서버 총 메모리: 약 8TB (4~8 Asimov 구성)[3] - 타깃 모델 규모: 단일 머신 16조 파라미터[3]

벤치마크 수치는 Positron 측이 공개한 구성에서의 결과입니다. NVIDIA·독립 리서치의 반박 수치는 아직 공식 비교가 없어 해석에 주의가 필요합니다.

한국 AI 생태계에 미치는 영향

핵심은 이것입니다. Positron 자체가 한국에 바로 들어오지는 않지만, "HBM 없는 추론 가속기"라는 설계 선택이 국내 메모리·AI 칩 산업의 두 갈래 흐름을 동시에 자극합니다.

NVIDIA 공식 H200 HGX 8-GPU 모듈 — Positron이 1.56배 토큰/초로 겨누고 있는 베이스라인

첫째, 삼성전자·SK하이닉스의 HBM 단기 위협은 제한적이지만 장기 시그널은 분명합니다. Positron이 노리는 건 Oracle·일부 엔터프라이즈의 추론 워크로드 틈새이고, NVIDIA·AMD의 HBM 수요는 여전히 세계 생산 캐파를 잡아먹을 수준으로 탄탄합니다. 다만 LPDDR5X 대량 수요가 데이터센터로 넘어오는 시나리오가 열렸다는 점은 삼성 메모리사업부의 모바일 DRAM 라인업에 새 매출 축이 될 여지를 줍니다. SK하이닉스 입장에선 "HBM 쏠림이 약해지는 위험"을 읽어야 할 문단입니다.

둘째, 국내 AI 추론 가속기 스타트업의 레퍼런스가 생겼습니다. Rebellions(ATOM·REBEL)·FuriosaAI(RNGD)·DeepX·Sapeon 같은 국내 팀이 Positron과 거의 같은 논지 — "학습은 포기, 추론만 전력 효율로 이긴다" — 를 들고 투자·고객을 설득 중입니다. Positron이 유니콘에 오르고 Oracle 계약까지 따냈다는 사실은 국내 팀이 시리즈 B·C 라운드에서 쓸 수 있는 비교 자료가 됩니다.

셋째, 네이버 클라우드·KT Cloud·카카오 클라우드의 조달 다변화 카드가 늘어납니다. NVIDIA GPU 확보가 국가 자원 수준의 이슈가 된 상황에서, "추론 워크로드는 대안 가속기로" 라는 분기 전략이 실제 레퍼런스를 확보했기 때문입니다.

주의할 점 하나. Positron의 성능/달러 3배 주장은 Transformer 추론이라는 특정 조건에서의 수치입니다. 멀티모달·학습·비-Transformer 모델에선 NVIDIA 우위가 여전히 견고합니다[6].

경쟁 구도

핵심은 이것입니다. 추론 가속기 시장이 "NVIDIA vs 나머지 스타트업 연합" 구도로 재편되고 있습니다.

🟢 Positron AI: Oracle 하이퍼스케일러 딜로 "대형 클라우드에서 실제로 돈 받고 돌아가는" 첫 non-NVIDIA/AMD 가속기가 됐습니다[1]. FPGA→ASIC 전환기에 검증 레퍼런스를 확보한 타이밍이 결정적입니다.

🟡 NVIDIA: H200·B200(Blackwell)으로 학습·추론을 모두 잡고 있지만, Vera Rubin 세대 이후 Positron Asimov·Groq·Cerebras 등이 추론 특화 영역을 동시에 갉아먹는 그림이 가시화됐습니다.

🟡 AMD: MI300X·MI355X로 추론 시장을 노렸지만 소프트웨어 스택(ROCm) 격차가 여전히 붙어 있습니다. Positron 같은 FPGA→ASIC 팀에는 오히려 쫓기는 입장.

🔴 NVLink 생태계 락인: Positron·Groq·Cerebras가 CXL·이더넷 기반 대안 스택을 함께 밀면서, NVIDIA의 독점적 인터커넥트 해자(moat)가 장기적으로 약해질 가능성이 수면 위로 올라왔습니다.

출시가와 국내 공급 전망

Atlas는 B2B 하이퍼스케일러·엔터프라이즈 직접 계약 모델이라 공개 단가가 없습니다. Positron이 공식으로 언급한 지표는 "H200 대비 성능/달러 3배"[3] 수준이고, Oracle 딜의 정확한 규모는 추가 발표 전까지 미공개입니다[1].

국내 공급은 단기적으로 개인 구매·소규모 온프레미스 도입 불가입니다. 현실 시나리오는 아래 두 갈래입니다. - Oracle Cloud Korea 리전을 통한 간접 사용 — 국내 엔터프라이즈가 OCI에서 Positron 기반 추론 인스턴스를 시간 단위로 호출. - 삼성·SK 등 메모리 공급 파트너십 — LPDDR5X 대량 공급 구도가 국내 DRAM 매출에 기여.

Asimov·Titan은 2027년 중반 상용 배포 목표라 한국 대형 클라우드 3사의 실제 도입 논의는 2027년 하반기~2028년 시야로 보는 것이 현실적입니다.

누가 써야 하나, 누가 아직 아닌가

지금 주목해야 할 조직 - 하이퍼스케일러·대형 SaaS 사업자 — Oracle 사례는 "우리도 NVIDIA 의존도를 낮출 수 있다"는 실증. 조달 다각화 검토 가치. - 추론 워크로드가 전체 AI 비용의 70% 이상을 차지하는 엔터프라이즈 — 성능/전력 4배 주장이 사실이면 ROI 재계산 필요. - 국내 AI 칩 스타트업 IR 담당 — Positron의 Series B 자료가 그대로 비교 벤치마크가 됩니다.

아직은 관망해도 되는 조직 - 중소 스타트업·1인 개발자 — 당장 Atlas·Asimov를 쓸 접점이 없습니다. OpenAI·Anthropic API·로컬 LLM 조합이 계속 현실적. - 학습 중심 연구팀 — Positron은 추론 전용입니다. 학습은 NVIDIA H100·H200·B200이 여전히 정답. - 비-Transformer 모델 의존 제품 — 최적화 범위 밖이라 이점이 줄어듭니다.

루머 라벨: Asimov가 어느 파운드리에서 양산되는지는 공식 공개되지 않았습니다. 일부 리포트에서 TSMC 4nm 추정이 거론되지만 루머이며, 삼성 파운드리 수혜 여부는 공식 확인 필요.

참고 자료

'AI 기술 & 반도체 해설' 카테고리의 다른 글

엔비디아(NVIDIA) 독립 선언? 오픈AI, 브로드컴과 첫 자체 설계 AI 반도체 공개 (0)	2026.06.26
세레브라스(Cerebras) IPO, 첫날 주가 2배 — AI 반도체 투자 붐의 새 이정표 (0)	2026.05.18
엔비디아 H200, 중국 판매 허가 났지만 배송 0건 — 젠슨 황은 베이징行 (0)	2026.05.18
코히어(Cohere)·알레프 알파 200억 달러 합병 — '주권 AI' 시장에 던지는 신호 (0)	2026.04.28
AI 이미지 프롬프트 30선 + 직접 만드는 생성기 (0)	2025.06.08

현재글Positron AI, 엔비디아(NVIDIA) 영토 첫 균열 — 오라클(Oracle) 딜이 보여준 HBM 없는 추론 가속기 로드맵

AI 디코드

안녕하세요, AI 디코드입니다. 해외 AI/테크 뉴스를 분석하여 한국어로 전달하는 기술 블로그입니다. 문의: winner9788@gmail.com

ChatGPT, AI에이전트, 클로드코드, AI반도체, AI, Google.com, 엔비디아, Google, Anthropic, 2026, B2BSaaS, 오픈AI, 애플, 엔트로픽, 신제품, nvidia, openai, 개발자도구, 엔터프라이즈ai, 클로드,

Today :
Yesterday :

AI 디코드