Gemini 3 Pro vs 3.1 Pro: 실제 코드 11만 자를 던져봤다

벤치마크 숫자 말고, 진짜 프로젝트 코드로 비교하면 어떨까?

TL;DR

같은 코드(112K chars, 116파일), 같은 질문으로 Gemini 3 Pro와 3.1 Pro를 비교
3.1 Pro는 보안 취약점, MCP 전환, Workflow Engine 등 3 Pro가 놓친 깊은 인사이트 발견
3 Pro는 2배 빠르고 바로 실행 가능한 코드 제안에 강점
가격은 동일 ($2/1M input) — 3.1 Pro는 사실상 무료 업그레이드

왜 이 테스트를 했나

Gemini 3.1 Pro가 2026년 2월 19일에 출시됐다. 벤치마크 숫자는 인상적이다:

벤치마크	3 Pro	3.1 Pro	향상
ARC-AGI-2	31.1%	77.1%	+148%
SWE-Bench Verified	~68%	80.6%	+18%
GPQA Diamond	~87%	94.3%	+8%

하지만 벤치마크는 벤치마크일 뿐이다. 진짜 내 코드를 읽고 분석하면 어떨까?

Gemini 3 Pro vs 3.1 Pro 비교

테스트 대상: Codemon Make

AI 에이전트(PM, Dev, QA)가 소프트웨어 개발을 자동으로 수행하는 플랫폼이다. 직접 만들고 있다.

규모: Turborepo monorepo, 116개 TypeScript 파일, 112K chars
기술 스택: Next.js 15 + BullMQ + Redis + PostgreSQL (Drizzle ORM)
구조: 3개 AI 에이전트 → 3개 승인 게이트 → Claude Code CLI로 코딩
상태: 초기 단계. 동작은 하지만 개선할 게 산더미

완벽한 테스트 대상이다 — 복잡하고, 개선점이 많고, AI가 실제로 코드를 읽어야만 의미 있는 피드백을 줄 수 있다.

테스트 방법

공통 조건

코드: packages/agent-core/src/ + packages/db/src/ + 설정 파일 (112K chars)
프롬프트: 동일한 4가지 질문 (아키텍처 리뷰, 위임 패턴, 리팩토링, 확장)
언어: 한국어 답변 요청
출력 요구: 파일명/함수명 언급하는 코드 레벨 분석

차이점

	Gemini 3 Pro	Gemini 3.1 Pro
호출 방식	oracle CLI (API)	curl 직접 호출
Thinking	없음	Budget 8,192 토큰

결과 비교

기본 수치

항목	3 Pro	3.1 Pro
입력 토큰	120,350	32,666
출력 토큰	2,500	2,226
Thinking 토큰	—	1,909
소요 시간	55.6초	~120초
비용	$0.27	~$0.08

3.1 Pro의 입력 토큰이 적은 이유: 동일한 코드지만 토큰화 효율이 다른 것으로 추정.

둘 다 찾아낸 것 (공통)

두 모델 모두 정확하게 짚은 포인트들이다:

✅ CLI JSON 파싱 취약성 — stdout에 로그 섞이면 JSON.parse 실패
✅ 좀비 프로세스 문제 — claude CLI 자식 프로세스 미정리
✅ One Session → Iterative 전환 권장 — 이슈 단위 순차 처리
✅ 파일시스템 의존성 — /tmp/ 경로 스케일아웃 불가
✅ Wiki 기반 컨텍스트 전파 = 강점 — .wiki/ 폴더 방식 높이 평가

기본기는 둘 다 탄탄하다. 여기까지만 보면 차이가 없어 보인다.

3.1 Pro만 찾아낸 것 — Thinking의 힘

여기가 핵심이다.

🔴 보안 취약점 (RCE)

3 Pro는 “파일시스템 의존성”이라고만 했다.

3.1 Pro의 답변:

“호스트 OS에서 직접 git과 claude를 실행하지 말고, Docker 컨테이너 내부에서 워크스페이스를 마운트하여 실행하도록 변경하세요.”

--dangerously-skip-permissions로 호스트에서 직접 실행하면 악의적 코드가 서버를 파괴할 수 있다고 짚었다. 보안 관점까지 파고든 것.

🟠 MCP 전환 제안

3 Pro는 tree-kill로 프로세스 정리하라고 했다 (단기 해결).

3.1 Pro:

“CLI 래핑은 임시방편입니다. Anthropic API와 MCP를 활용하여 커스텀 에이전트 루프를 구현해야 예외 처리가 가능합니다.”

근본적으로 CLI에서 API+MCP로 전환해야 한다는 장기 아키텍처 제안.

🟡 Workflow Engine 필요성

3 Pro는 “큐 분리 + 우선순위”로 해결하라고 했다.

3.1 Pro:

“7개 에이전트가 되면 orchestrator의 이벤트 라우팅이 스파게티가 됩니다. XState나 Temporal.io로 DAG 관리가 필요합니다.”

상태 머신/워크플로우 엔진 도입까지 제안. 확장성 관점의 차이.

🟢 Context Hydration

“다음 이슈를 시작할 때, 이전 이슈들의 커밋 메시지와 변경된 파일의 인터페이스(타입 정의 등)만 요약하여 프롬프트에 주입합니다.”

Iterative 전략의 구체적 실행 방법 + 기존 .wiki/ 방식이 “좋은 시작점”이라는 연결까지.

🔵 BullMQ Flow

“dependsOn(BullMQ Flow 기능)을 활용해 이슈 간 체이닝하도록 변경하세요.”

BullMQ의 구체적 API까지 언급. 3 Pro는 “순차적으로 큐에 넣으라”는 수준이었다.

우선순위도 달랐다

순위	3 Pro	3.1 Pro
1위	tree-kill 프로세스 정리	Docker 샌드박스 (보안)
2위	Iterative 전략	JSON 파싱 방어
3위	Redis Semaphore	실시간 로그 (Pub/Sub)
4위	에이전트 분리	이슈 단위 큐잉 (BullMQ Flow)

3 Pro: “일단 안 죽게 하자” (안정성 우선)

3.1 Pro: “근본부터 바꾸자” (아키텍처 우선)

가격 비교

3.1 Pro의 진짜 무서운 점은 가격이 3 Pro와 동일하다는 것이다.

모델	Input/1M	Output/1M	상대 비용
Gemini 3.1 Pro	$2.00	$12.00	1x
Gemini 3 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	~$10.00	~$30.00	5x
Claude Opus 4.6	$15.00	$75.00	7.5x

112K 코드를 분석하는 데 $0.27. Opus로 같은 작업을 하면 $2.00 이상. 가성비가 압도적이다.

결론: 언제 뭘 쓸까

Gemini 3 Pro를 쓸 때

⚡ 빠른 코드 리뷰 (55초)
💰 비용 최소화 (thinking 토큰 없음)
🔧 바로 적용 가능한 코드 수정

Gemini 3.1 Pro를 쓸 때

🏗️ 아키텍처 설계/리뷰
🔒 보안 감사 (RCE, 격리, 권한 분석)
📐 확장 계획 (에이전트 추가, 스케일아웃)
🧠 “왜?”를 알고 싶을 때

한 줄 정리

3 Pro는 “뭘 고칠지” 알려주고, 3.1 Pro는 “왜 고쳐야 하는지”까지 알려준다. 가격은 같다.

부록: 실제 프롬프트

## 프로젝트: Codemon Make — AI 외주 자동화 플랫폼

### 분석 요청 (한국어)
1. 아키텍처 리뷰: 강점/약점, 확장성, 유지보수성
2. 에이전트 위임 패턴: dev-worker.ts의 Claude Code CLI 호출 문제점과 개선안
3. One Session Strategy 장단점 + 대안
4. 3→7 에이전트 확장 고려사항

코드 레벨로 파일명/함수명 언급하며 구체적으로.
실행 가능한 개선안 우선순위 포함.

+ 112K chars (116 TypeScript 파일)

AI 코딩 에이전트의 npm — Agent Skills 생태계 완전 정복 Opus가 포위됐다 — Sonnet 4.6과 Gemini 3.1 Pro, 48시간의 협공