Opus가 포위됐다 — Sonnet 4.6과 Gemini 3.1 Pro, 48시간의 협공

이틀 사이에 두 모델이 나란히 출시됐다. 하나는 같은 집안에서 나온 Sonnet 4.6, 다른 하나는 Google의 Gemini 3.1 Pro. Opus의 1/5 가격에 70%가 더 좋다는 놈과, 절반 가격에 벤치마크 13개를 뒤집은 놈. Opus 4.6은 아직 살아있지만, 포위망이 좁혀지고 있다.

Opus가 포위됐다 — 체스 킹 협공

48시간의 지각변동

2월 18일, Anthropic이 Sonnet 4.6을 조용히 내놓았다. 2월 20일, Google이 Gemini 3.1 Pro를 발표했다. 이틀 사이에 AI 모델 시장의 판도가 완전히 달라졌다.

3개월 전만 해도 Opus 4.6은 “넘볼 수 없는 최강”이었다. 지금? 아래에서는 Sonnet이, 옆에서는 Gemini가 치고 올라왔다.

여기서 재밌는 건 Sonnet 4.6이다. Opus와 같은 Anthropic 제품이다. 자기 회사의 플래그십을 자기 회사의 중급 모델이 잡아먹고 있다. Anthropic은 이걸 모를까? 아니, 일부러 그러는 거다. Sonnet으로 시장 점유율을 넓히고, Opus는 프리미엄 니치로 남기는 전략. 아이폰 SE가 아이폰 Pro의 매출을 갉아먹는 것과 같은 구도다. 다만 차이가 있다면 — SE가 Pro를 벤치마크에서 이기진 않는다. Sonnet 4.6 Thinking은 일부 벤치마크에서 Opus를 이긴다. Anthropic의 자기 잠식(cannibalization)이 이렇게 노골적인 건 처음이다.

숫자로 보는 삼파전

벤치마크

벤치마크	Gemini 3.1 Pro	Opus 4.6	Sonnet 4.6 (Thinking)	GPT-5.2
ARC-AGI-2 (추상 추론)	77.1%	68.8%	—	—
GPQA Diamond (과학)	94.3%	91.3%	—	92.4%
SWE-Bench (코딩)	80.6%	80.8%	~76%	80.0%
APEX-Agents (에이전트)	33.5%	29.8%	—	23.0%
Humanity’s Last Exam	44.4%/51.4%	42.0%/53.1%	—	—
GDPval-AA Elo (전문가)	1317	1606	1633	—
MRCR v2 128K (장문맥)	84.9%	—	84.9%	—

패턴이 보인다:

범용 추론/과학 → Gemini가 앞선다
코딩 → Opus가 근소 우위, 하지만 셋 다 80% 언저리
전문가 태스크 → Sonnet 4.6 Thinking이 Opus마저 이김
에이전트 → Gemini 압도적

가격 — 진짜 뉴스는 여기다

가격 비교

모델	Input / 1M	Output / 1M	Opus 대비
Opus 4.6	$5	$25	기준
Gemini 3.1 Pro	$2	$12	52% 할인
Sonnet 4.6	$1	$5	80% 할인
GPT-5.2	$5	$25	동일

같은 작업을 Opus로 $25 쓸 때:

Gemini로 하면 $12
Sonnet으로 하면 $5

월 API 비용이 80% 줄어든다. 성능이 비슷한데.

각 모델의 킬링 포인트

Gemini 3.1 Pro — “범용 최강, 가격 파괴”

ARC-AGI-2 77.1% — 추상 추론에서 압도적. Gemini 3 Pro 대비 2배 향상.
1M 컨텍스트 + 64K 출력 — 긴 문서, 큰 코드베이스에 최적화.
SVG 생성 능력 — “태양계 행성 공전 애니메이션”을 프롬프트 하나로. 멀티모달의 새로운 지평.
Google TPU 가격 경쟁력 — input $2가 가능한 건 자체 칩이 있어서.

약점: 출시 직후 속도 이슈 (단순 “Hi”에 104초 보고), Thinking 모드 미지원.

Sonnet 4.6 — “95%의 개발자에겐 이게 답”

Claude Code 유저 70%가 이전 Sonnet보다 선호, 59%는 Opus 4.5보다도 선호.
오버엔지니어링 해결 — 요청한 만큼만 한다. 이전 Sonnet의 최대 불만이 사라짐.
Thinking 모드로 Opus 추월 — GDPval-AA에서 1633 Elo (Opus 1606).
무료/Pro($20) — 진입장벽 자체가 없다.

약점: 극한 난이도 추론, 대규모 시스템 아키텍처 설계에서는 여전히 Opus가 낫다.

Opus 4.6 — “왕좌는 흔들리지만, 왕은 아직 살아있다”

코딩 종합 1위 — SWE-Bench 80.8%, 실사용 “바이브”도 최고.
도구 활용 추론 — Humanity’s Last Exam (with tools) 53.1%로 1위.
Thinking off 가능 — 3~5배 빠르게 쓸 수 있음. 속도 필요할 때 유연.
복잡한 디버깅 — 여러 레이어에 걸친 버그를 추적하는 능력은 아직 최고.

약점: $5/$25 — 같은 돈으로 Sonnet을 5배, Gemini를 2배 돌릴 수 있다.

그래서 뭘 써야 하나 — 2026년 2월 기준 추천

결정 플로우차트

일상 코딩, 기능 추가, 테스트    → Sonnet 4.6 ($1/$5)
어려운 문제, 깊은 추론          → Sonnet 4.6 + Thinking
대규모 코드베이스 분석          → Gemini 3.1 Pro ($2/$12, 1M+64K)
극한 디버깅, 시스템 아키텍처    → Opus 4.6 ($5/$25)
에이전트 자동화                 → Gemini 3.1 Pro (APEX-Agents 1위)
가성비 극대화                   → Sonnet 4.6 기본, 필요할 때만 업그레이드

핵심 원칙: 하나의 모델에 올인하지 마라.

3개월 전 Opus가 “절대 강자”였는데 벌써 이렇게 됐다. 3개월 후엔 또 바뀐다. 연간 구독 끊지 말고, 월 단위로 유연하게 갈아타는 게 2026년의 정답이다.

개발자를 위한 실전 셋업

구독 전략

기본: Claude Pro $20/월 (Sonnet 4.6 무제한급)
필요 시: Claude Max $100/월 (Opus 4.6)
API: Gemini 3.1 Pro (범용) + Sonnet 4.6 (코딩) 조합

에이전트 시스템

역할	추천 모델	이유
PM/기획	Sonnet 4.6	빠르고 충분
개발	Opus 4.6 or Sonnet Thinking	코딩 정확도
QA/테스트	Sonnet 4.6	가성비
리서치	Gemini 3.1 Pro	범용 추론 + 가격

Claude Code 사용자라면

Sonnet 4.6이 기본 모델로 들어갔다. 대부분의 작업에서 일부러 Opus를 고를 이유가 없다. Thinking 모드를 켜면 Opus를 이기는 영역도 있다.

3개월 후 예측

Google이 Gemini 3.1 Pro의 속도 문제를 해결하면, API 시장 점유율이 확 올라갈 것
Anthropic은 Opus 4.7 또는 Sonnet 5.0으로 대응할 것
OpenAI는 GPT-5.3으로 코딩 특화 모델을 밀 것
가격은 계속 내려간다 — 1년 후엔 지금 Opus 성능이 $1/$5에 나올 수 있다

왕좌전은 계속된다. 그리고 그건 우리 개발자에게 좋은 소식이다.

Gemini 3 Pro vs 3.1 Pro: 실제 코드 11만 자를 던져봤다 Gemini CLI + Google MCP로 풀스택 앱 클라우드 배포하기