Gemini 3 Pro vs 3.1 Pro: 실제 코드 11만 자를 던져봤다
벤치마크 숫자 말고, 진짜 프로젝트 코드로 비교하면 어떨까?
TL;DR
- 같은 코드(112K chars, 116파일), 같은 질문으로 Gemini 3 Pro와 3.1 Pro를 비교
- 3.1 Pro는 보안 취약점, MCP 전환, Workflow Engine 등 3 Pro가 놓친 깊은 인사이트 발견
- 3 Pro는 2배 빠르고 바로 실행 가능한 코드 제안에 강점
- 가격은 동일 ($2/1M input) — 3.1 Pro는 사실상 무료 업그레이드
왜 이 테스트를 했나
Gemini 3.1 Pro가 2026년 2월 19일에 출시됐다. 벤치마크 숫자는 인상적이다:
| 벤치마크 | 3 Pro | 3.1 Pro | 향상 |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| SWE-Bench Verified | ~68% | 80.6% | +18% |
| GPQA Diamond | ~87% | 94.3% | +8% |
하지만 벤치마크는 벤치마크일 뿐이다. 진짜 내 코드를 읽고 분석하면 어떨까?

테스트 대상: Codemon Make
AI 에이전트(PM, Dev, QA)가 소프트웨어 개발을 자동으로 수행하는 플랫폼이다. 직접 만들고 있다.
- 규모: Turborepo monorepo, 116개 TypeScript 파일, 112K chars
- 기술 스택: Next.js 15 + BullMQ + Redis + PostgreSQL (Drizzle ORM)
- 구조: 3개 AI 에이전트 → 3개 승인 게이트 → Claude Code CLI로 코딩
- 상태: 초기 단계. 동작은 하지만 개선할 게 산더미
완벽한 테스트 대상이다 — 복잡하고, 개선점이 많고, AI가 실제로 코드를 읽어야만 의미 있는 피드백을 줄 수 있다.
테스트 방법
공통 조건
- 코드:
packages/agent-core/src/+packages/db/src/+ 설정 파일 (112K chars) - 프롬프트: 동일한 4가지 질문 (아키텍처 리뷰, 위임 패턴, 리팩토링, 확장)
- 언어: 한국어 답변 요청
- 출력 요구: 파일명/함수명 언급하는 코드 레벨 분석
차이점
| Gemini 3 Pro | Gemini 3.1 Pro | |
|---|---|---|
| 호출 방식 | oracle CLI (API) | curl 직접 호출 |
| Thinking | 없음 | Budget 8,192 토큰 |
결과 비교
기본 수치
| 항목 | 3 Pro | 3.1 Pro |
|---|---|---|
| 입력 토큰 | 120,350 | 32,666 |
| 출력 토큰 | 2,500 | 2,226 |
| Thinking 토큰 | — | 1,909 |
| 소요 시간 | 55.6초 | ~120초 |
| 비용 | $0.27 | ~$0.08 |
3.1 Pro의 입력 토큰이 적은 이유: 동일한 코드지만 토큰화 효율이 다른 것으로 추정.
둘 다 찾아낸 것 (공통)
두 모델 모두 정확하게 짚은 포인트들이다:
- ✅ CLI JSON 파싱 취약성 — stdout에 로그 섞이면
JSON.parse실패 - ✅ 좀비 프로세스 문제 — claude CLI 자식 프로세스 미정리
- ✅ One Session → Iterative 전환 권장 — 이슈 단위 순차 처리
- ✅ 파일시스템 의존성 —
/tmp/경로 스케일아웃 불가 - ✅ Wiki 기반 컨텍스트 전파 = 강점 —
.wiki/폴더 방식 높이 평가
기본기는 둘 다 탄탄하다. 여기까지만 보면 차이가 없어 보인다.
3.1 Pro만 찾아낸 것 — Thinking의 힘
여기가 핵심이다.
🔴 보안 취약점 (RCE)
3 Pro는 “파일시스템 의존성”이라고만 했다.
3.1 Pro의 답변:
“호스트 OS에서 직접
git과claude를 실행하지 말고, Docker 컨테이너 내부에서 워크스페이스를 마운트하여 실행하도록 변경하세요.”
--dangerously-skip-permissions로 호스트에서 직접 실행하면 악의적 코드가 서버를 파괴할 수 있다고 짚었다. 보안 관점까지 파고든 것.
🟠 MCP 전환 제안
3 Pro는 tree-kill로 프로세스 정리하라고 했다 (단기 해결).
3.1 Pro:
“CLI 래핑은 임시방편입니다. Anthropic API와 MCP를 활용하여 커스텀 에이전트 루프를 구현해야 예외 처리가 가능합니다.”
근본적으로 CLI에서 API+MCP로 전환해야 한다는 장기 아키텍처 제안.
🟡 Workflow Engine 필요성
3 Pro는 “큐 분리 + 우선순위”로 해결하라고 했다.
3.1 Pro:
“7개 에이전트가 되면 orchestrator의 이벤트 라우팅이 스파게티가 됩니다. XState나 Temporal.io로 DAG 관리가 필요합니다.”
상태 머신/워크플로우 엔진 도입까지 제안. 확장성 관점의 차이.
🟢 Context Hydration
“다음 이슈를 시작할 때, 이전 이슈들의 커밋 메시지와 변경된 파일의 인터페이스(타입 정의 등)만 요약하여 프롬프트에 주입합니다.”
Iterative 전략의 구체적 실행 방법 + 기존 .wiki/ 방식이 “좋은 시작점”이라는 연결까지.
🔵 BullMQ Flow
“
dependsOn(BullMQ Flow 기능)을 활용해 이슈 간 체이닝하도록 변경하세요.”
BullMQ의 구체적 API까지 언급. 3 Pro는 “순차적으로 큐에 넣으라”는 수준이었다.
우선순위도 달랐다
| 순위 | 3 Pro | 3.1 Pro |
|---|---|---|
| 1위 | tree-kill 프로세스 정리 | Docker 샌드박스 (보안) |
| 2위 | Iterative 전략 | JSON 파싱 방어 |
| 3위 | Redis Semaphore | 실시간 로그 (Pub/Sub) |
| 4위 | 에이전트 분리 | 이슈 단위 큐잉 (BullMQ Flow) |
3 Pro: “일단 안 죽게 하자” (안정성 우선)
3.1 Pro: “근본부터 바꾸자” (아키텍처 우선)
가격 비교
3.1 Pro의 진짜 무서운 점은 가격이 3 Pro와 동일하다는 것이다.
| 모델 | Input/1M | Output/1M | 상대 비용 |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Gemini 3 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x |
| GPT-5.2 | ~$10.00 | ~$30.00 | 5x |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x |
112K 코드를 분석하는 데 $0.27. Opus로 같은 작업을 하면 $2.00 이상. 가성비가 압도적이다.
결론: 언제 뭘 쓸까
Gemini 3 Pro를 쓸 때
- ⚡ 빠른 코드 리뷰 (55초)
- 💰 비용 최소화 (thinking 토큰 없음)
- 🔧 바로 적용 가능한 코드 수정
Gemini 3.1 Pro를 쓸 때
- 🏗️ 아키텍처 설계/리뷰
- 🔒 보안 감사 (RCE, 격리, 권한 분석)
- 📐 확장 계획 (에이전트 추가, 스케일아웃)
- 🧠 “왜?”를 알고 싶을 때
한 줄 정리
3 Pro는 “뭘 고칠지” 알려주고, 3.1 Pro는 “왜 고쳐야 하는지”까지 알려준다. 가격은 같다.
부록: 실제 프롬프트
## 프로젝트: Codemon Make — AI 외주 자동화 플랫폼
### 분석 요청 (한국어)
1. 아키텍처 리뷰: 강점/약점, 확장성, 유지보수성
2. 에이전트 위임 패턴: dev-worker.ts의 Claude Code CLI 호출 문제점과 개선안
3. One Session Strategy 장단점 + 대안
4. 3→7 에이전트 확장 고려사항
코드 레벨로 파일명/함수명 언급하며 구체적으로.
실행 가능한 개선안 우선순위 포함.+ 112K chars (116 TypeScript 파일)