앤트로픽(Anthropic) 'Project Deal' — AI 에이전트끼리 4천 달러 거래한 실험
Anthropic이 직원 69명을 대상으로 진행한 AI 에이전트 자율 거래 실험 'Project Deal'. 186건·$4,000 거래에서 드러난 모델 격차의 경고를 정리합니다.

- 앤트로픽 직원 69명이 각자 $100 기프트카드를 들고 4개 마켓플레이스에서 AI 에이전트로 거래 → 186건·총 $4,000+ 체결
- 더 강한 모델을 쓴 쪽이 객관적으로 더 좋은 가격을 받았는데, 정작 패배 쪽은 본인이 손해 봤다는 사실을 인지 못함
- 에이전트에게 처음에 어떤 지시를 줬느냐는 거래 가격에 거의 영향이 없었음 — 협상 능력은 모델 자체에서 나옴
무슨 일이 있었나
앤트로픽(Anthropic)이 4월 25일 자사 사내에서 진행한 자율 에이전트 마켓플레이스 실험 'Project Deal' 의 결과를 공개했습니다. 자원자 직원 69명이 각 $100 한도의 기프트카드 예산을 받고, AI 에이전트를 대리인 삼아 다른 직원의 에이전트와 직접 거래하도록 한 일종의 모의 시장입니다.
총 186건의 거래가 체결됐고 누적 거래 금액은 $4,000 을 넘었습니다. 4개의 별도 마켓플레이스가 운영됐는데, 그중 1개는 실험이 끝난 뒤 실제로 거래 결과가 이행되는 "real" 마켓플레이스였습니다. 나머지 3개는 거래 패턴 관찰용 시뮬레이션입니다.
• 에이전틱 AI(Agentic AI): 사용자가 매번 지시하지 않아도 스스로 목표를 달성하기 위해 도구를 호출하고 다단계로 행동하는 AI.
• 에이전트-투-에이전트 커머스: 사람이 아닌 AI 에이전트끼리 직접 가격 협상·결제까지 처리하는 거래 형태.
왜 중요한가: 실무와 시장에 미치는 영향
이 실험에서 가장 인상 깊은 발견은 거래액 규모가 아니라, 모델 격차가 만들어낸 비대칭 입니다. 더 좋은 AI 를 쓴 사용자가 객관적으로 더 좋은 가격에 사거나 더 비싸게 팔았는데, 정작 손해 본 쪽은 본인이 졌다는 사실을 거의 인지하지 못했습니다.
"the people on the losing end might not realize they're worse off" — Anthropic, Project Deal 결과 보고
이 한 줄이 이 실험의 핵심이라고 봅니다.

이건 B2B SaaS 시장에 그대로 옮겨붙는 얘기입니다. 협상·구매·계약 자동화 SaaS 가 다음 1~2년 안에 폭발적으로 늘어날 텐데, 어떤 모델 백엔드를 쓰느냐가 곧 영업 성과 격차로 직결될 가능성이 큽니다. 같은 가격대 SaaS 처럼 보여도 내부적으로 GPT-5.5 / Claude Opus 4.7 / Gemini 3 중 무엇을 쓰는가에 따라, 1년 누적 협상 결과가 수억 단위로 갈릴 수 있다는 뜻이죠.
• Claude Opus 4.7: 앤트로픽의 최신 플래그십 모델. 코딩·복합 추론·툴 사용 능력에서 GPT-5.4·Gemini 3.1 Pro 를 제친 벤치마크 결과로 4월 16일 공개됨.
• 모델 백엔드: SaaS 가 내부적으로 호출하는 LLM 종류. 사용자에게는 보이지 않지만 결과 품질을 결정.
또 하나 흥미로운 건 "초기 지시가 거래에 별 영향이 없었다" 는 부분입니다. "최대한 싸게 사라" 든 "공정한 가격에 합의해라" 든 시작 프롬프트는 결과에 거의 영향이 없었어요. 즉, 협상 능력이 프롬프트 엔지니어링의 영역이 아니라 모델 자체의 본질적 능력 으로 굳어진다는 신호입니다. 한국 SaaS 입장에서 보면 "프롬프트만 잘 쓰면 된다" 는 시대가 빠르게 저물고 있다는 얘기죠.
엔터프라이즈 도입 시나리오로 좁히면, 에이전트 간 거래 인프라는 클라우드 추론 비용과 직결됩니다. AWS Bedrock·Azure OpenAI·Vertex AI 가 단순 추론 API 가 아니라 "에이전트 협상 트래픽" 단가 경쟁으로 옮겨갈 가능성이 높습니다. AI 반도체 측면에서도 협상 한 사이클당 수십 회의 추론 호출이 발생하니, 추론 가속기 수요가 한 단계 더 올라갑니다.

경쟁 구도는 어떻게 바뀌나
이번 실험은 앤트로픽이 단순 "안전한 모델" 포지션을 넘어 에이전트 운영 환경 그 자체를 설계하는 회사 로 나아가고 있다는 신호입니다. OpenAI 가 Operator·Atlas 같은 소비자 에이전트로 갔다면, 앤트로픽은 B2B 에이전트 인프라 쪽에 무게중심을 두는 모양새네요.
| 회사 | 에이전틱 AI 방향 | 이번 실험과의 관계 | 시그널 |
|---|---|---|---|
| 앤트로픽(Anthropic) | B2B 에이전트 인프라 + 안전성 검증 | Project Deal 직접 운영, 거래 비대칭 경고 | 🟢 호재 |
| OpenAI | 소비자용 에이전트(Operator·Atlas) + GPT 기반 에이전트 SDK | 유사 실험 미공개. 관전 모드 | 🟡 보류 |
| 구글(Google) | Gemini 기반 Agentspace 엔터프라이즈 | Vertex AI 백엔드로 흡수 가능, 직접 실험은 무 | 🟡 보류 |
| 메타(Meta) | 광고용 에이전트·Llama 4 오픈웨이트 | 광고 자동 입찰 에이전트로 응용 가능 | 🟢 호재 |
특히 앤트로픽이 거래 비대칭이라는 "약점 가능성" 을 자기 손으로 먼저 공개한 게 의미가 있습니다. 보통 모델 회사들은 자기 모델이 잘하는 벤치마크만 보여주는데, 이건 거꾸로 "에이전트 시장이 열리면 사용자가 손해 보는 줄도 모를 수 있다" 는 리스크를 먼저 깐 셈이죠.
내 생각: 기대와 우려 사이
솔직히 이 실험에서 가장 무서운 건 거래 금액도 모델 우열도 아니에요. "본인이 졌는지조차 모른다" 라는 한 줄입니다.
저의 경우 1인 개발자 입장에서 보면, 앞으로 SaaS 를 고를 때 "어떤 모델 백엔드를 쓰는지" 가 가격이나 UI 보다 더 중요한 변수가 될 거라고 봅니다. 같은 협상 자동화 툴이라도 내부 모델이 약하면 1년 누적으로 꽤 큰 손해가 쌓이는데, 사용자는 결과 화면만 보고 만족할 수 있다는 거니까요.
한 가지 경계할 점은, 이번 실험이 직원 자원자 풀이라 일반 사용자 시장에 그대로 적용된다고 단정하기엔 표본이 작다는 부분이에요. 앤트로픽 본인도 "pilot experiment with a self-selected participant pool" 이라고 한계를 명시했고, 외부 검증이 더 필요합니다. 그래도 방향성 자체는 확실해 보이네요.
오늘 이후로는 Anthropic 의 에이전트 거래 인프라 발표, OpenAI 의 유사 실험 공개 여부, 그리고 한국 SaaS 들이 어떤 모델 백엔드를 채택하는지를 같이 지켜보겠습니다. 그럼 이만~
출처: Anthropic created a test marketplace for agent-on-agent commerce — TechCrunch
참고자료: - Anthropic 공식 뉴스룸 - Claude Opus 4.7 발표 (Anthropic) - Vertex AI 의 Claude 통합 (Google Cloud) - AWS Bedrock — Anthropic 모델
'AI 뉴스' 카테고리의 다른 글
| 메타(Meta), AI로 키·뼈 보고 청소년 자동 식별 — '얼굴 인식 아니다' 해명에도 불붙은 사생활 논쟁 (0) | 2026.05.06 |
|---|---|
| 딥시크(DeepSeek) V4 공식 출시 — 1.6조 파라미터 오픈웨이트가 GPT-5.5·Claude Opus 4.7 코딩 벤치를 따라잡은 날 (0) | 2026.05.03 |
| GPT-5.5 공식 출시 — 코딩·지식노동·과학 연구를 겨냥한 '업무용' 에이전트 AI 심층 정리 (1) | 2026.04.25 |
| GPT-5.5 '스푸드(Spud)' 유출 — OpenAI가 Codex에 흘린 차세대 모델, 출시는 오늘일까 (0) | 2026.04.23 |
| 애플 CEO 팀 쿡 15년 만에 물러난다 — 후임 존 터너스, 9월 1일 취임 (0) | 2026.04.21 |