AI 뉴스

앤트로픽(Anthropic) 'Project Deal' — AI 에이전트끼리 4천 달러 거래한 실험

AI 디코드 2026. 4. 27. 00:55

앤트로픽(Anthropic) 'Project Deal' — AI 에이전트끼리 4천 달러 거래한 실험

AI/머신러닝 2026. 04. 27. 약 13분 읽기

Anthropic이 직원 69명을 대상으로 진행한 AI 에이전트 자율 거래 실험 'Project Deal'. 186건·$4,000 거래에서 드러난 모델 격차의 경고를 정리합니다.

AI 에이전트 자율 거래 실험
앤트로픽이 사내에서 굴린 'Project Deal' 은 에이전트끼리 $4,000 어치를 실제로 사고팔았고, 그 과정에서 가장 무서운 발견은 "내 에이전트가 졌다는 사실 자체를 사람들이 모른다" 였다.
3줄 요약
  • 앤트로픽 직원 69명이 각자 $100 기프트카드를 들고 4개 마켓플레이스에서 AI 에이전트로 거래 → 186건·총 $4,000+ 체결
  • 더 강한 모델을 쓴 쪽이 객관적으로 더 좋은 가격을 받았는데, 정작 패배 쪽은 본인이 손해 봤다는 사실을 인지 못함
  • 에이전트에게 처음에 어떤 지시를 줬느냐는 거래 가격에 거의 영향이 없었음 — 협상 능력은 모델 자체에서 나옴

무슨 일이 있었나

앤트로픽(Anthropic)이 4월 25일 자사 사내에서 진행한 자율 에이전트 마켓플레이스 실험 'Project Deal' 의 결과를 공개했습니다. 자원자 직원 69명이 각 $100 한도의 기프트카드 예산을 받고, AI 에이전트를 대리인 삼아 다른 직원의 에이전트와 직접 거래하도록 한 일종의 모의 시장입니다.

총 186건의 거래가 체결됐고 누적 거래 금액은 $4,000 을 넘었습니다. 4개의 별도 마켓플레이스가 운영됐는데, 그중 1개는 실험이 끝난 뒤 실제로 거래 결과가 이행되는 "real" 마켓플레이스였습니다. 나머지 3개는 거래 패턴 관찰용 시뮬레이션입니다.

📖 용어 풀이
에이전틱 AI(Agentic AI): 사용자가 매번 지시하지 않아도 스스로 목표를 달성하기 위해 도구를 호출하고 다단계로 행동하는 AI.
에이전트-투-에이전트 커머스: 사람이 아닌 AI 에이전트끼리 직접 가격 협상·결제까지 처리하는 거래 형태.

왜 중요한가: 실무와 시장에 미치는 영향

이 실험에서 가장 인상 깊은 발견은 거래액 규모가 아니라, 모델 격차가 만들어낸 비대칭 입니다. 더 좋은 AI 를 쓴 사용자가 객관적으로 더 좋은 가격에 사거나 더 비싸게 팔았는데, 정작 손해 본 쪽은 본인이 졌다는 사실을 거의 인지하지 못했습니다.

"the people on the losing end might not realize they're worse off" — Anthropic, Project Deal 결과 보고

이 한 줄이 이 실험의 핵심이라고 봅니다.

이건 B2B SaaS 시장에 그대로 옮겨붙는 얘기입니다. 협상·구매·계약 자동화 SaaS 가 다음 1~2년 안에 폭발적으로 늘어날 텐데, 어떤 모델 백엔드를 쓰느냐가 곧 영업 성과 격차로 직결될 가능성이 큽니다. 같은 가격대 SaaS 처럼 보여도 내부적으로 GPT-5.5 / Claude Opus 4.7 / Gemini 3 중 무엇을 쓰는가에 따라, 1년 누적 협상 결과가 수억 단위로 갈릴 수 있다는 뜻이죠.

📖 용어 풀이
Claude Opus 4.7: 앤트로픽의 최신 플래그십 모델. 코딩·복합 추론·툴 사용 능력에서 GPT-5.4·Gemini 3.1 Pro 를 제친 벤치마크 결과로 4월 16일 공개됨.
모델 백엔드: SaaS 가 내부적으로 호출하는 LLM 종류. 사용자에게는 보이지 않지만 결과 품질을 결정.

또 하나 흥미로운 건 "초기 지시가 거래에 별 영향이 없었다" 는 부분입니다. "최대한 싸게 사라" 든 "공정한 가격에 합의해라" 든 시작 프롬프트는 결과에 거의 영향이 없었어요. 즉, 협상 능력이 프롬프트 엔지니어링의 영역이 아니라 모델 자체의 본질적 능력 으로 굳어진다는 신호입니다. 한국 SaaS 입장에서 보면 "프롬프트만 잘 쓰면 된다" 는 시대가 빠르게 저물고 있다는 얘기죠.

엔터프라이즈 도입 시나리오로 좁히면, 에이전트 간 거래 인프라는 클라우드 추론 비용과 직결됩니다. AWS Bedrock·Azure OpenAI·Vertex AI 가 단순 추론 API 가 아니라 "에이전트 협상 트래픽" 단가 경쟁으로 옮겨갈 가능성이 높습니다. AI 반도체 측면에서도 협상 한 사이클당 수십 회의 추론 호출이 발생하니, 추론 가속기 수요가 한 단계 더 올라갑니다.

 

경쟁 구도는 어떻게 바뀌나

이번 실험은 앤트로픽이 단순 "안전한 모델" 포지션을 넘어 에이전트 운영 환경 그 자체를 설계하는 회사 로 나아가고 있다는 신호입니다. OpenAI 가 Operator·Atlas 같은 소비자 에이전트로 갔다면, 앤트로픽은 B2B 에이전트 인프라 쪽에 무게중심을 두는 모양새네요.

회사 에이전틱 AI 방향 이번 실험과의 관계 시그널
앤트로픽(Anthropic) B2B 에이전트 인프라 + 안전성 검증 Project Deal 직접 운영, 거래 비대칭 경고 🟢 호재
OpenAI 소비자용 에이전트(Operator·Atlas) + GPT 기반 에이전트 SDK 유사 실험 미공개. 관전 모드 🟡 보류
구글(Google) Gemini 기반 Agentspace 엔터프라이즈 Vertex AI 백엔드로 흡수 가능, 직접 실험은 무 🟡 보류
메타(Meta) 광고용 에이전트·Llama 4 오픈웨이트 광고 자동 입찰 에이전트로 응용 가능 🟢 호재

특히 앤트로픽이 거래 비대칭이라는 "약점 가능성" 을 자기 손으로 먼저 공개한 게 의미가 있습니다. 보통 모델 회사들은 자기 모델이 잘하는 벤치마크만 보여주는데, 이건 거꾸로 "에이전트 시장이 열리면 사용자가 손해 보는 줄도 모를 수 있다" 는 리스크를 먼저 깐 셈이죠.


내 생각: 기대와 우려 사이

솔직히 이 실험에서 가장 무서운 건 거래 금액도 모델 우열도 아니에요. "본인이 졌는지조차 모른다" 라는 한 줄입니다.

저의 경우 1인 개발자 입장에서 보면, 앞으로 SaaS 를 고를 때 "어떤 모델 백엔드를 쓰는지" 가 가격이나 UI 보다 더 중요한 변수가 될 거라고 봅니다. 같은 협상 자동화 툴이라도 내부 모델이 약하면 1년 누적으로 꽤 큰 손해가 쌓이는데, 사용자는 결과 화면만 보고 만족할 수 있다는 거니까요.

한 가지 경계할 점은, 이번 실험이 직원 자원자 풀이라 일반 사용자 시장에 그대로 적용된다고 단정하기엔 표본이 작다는 부분이에요. 앤트로픽 본인도 "pilot experiment with a self-selected participant pool" 이라고 한계를 명시했고, 외부 검증이 더 필요합니다. 그래도 방향성 자체는 확실해 보이네요.

오늘 이후로는 Anthropic 의 에이전트 거래 인프라 발표, OpenAI 의 유사 실험 공개 여부, 그리고 한국 SaaS 들이 어떤 모델 백엔드를 채택하는지를 같이 지켜보겠습니다. 그럼 이만~


출처: Anthropic created a test marketplace for agent-on-agent commerce — TechCrunch

참고자료: - Anthropic 공식 뉴스룸 - Claude Opus 4.7 발표 (Anthropic) - Vertex AI 의 Claude 통합 (Google Cloud) - AWS Bedrock — Anthropic 모델