BlogGemini 3 Pro vs 3.1 Pro: 실제 코드 11만 자를 던져봤다

Gemini 3 Pro vs 3.1 Pro: 실제 코드 11만 자를 던져봤다

벤치마크 숫자 말고, 진짜 프로젝트 코드로 비교하면 어떨까?

TL;DR

  • 같은 코드(112K chars, 116파일), 같은 질문으로 Gemini 3 Pro와 3.1 Pro를 비교
  • 3.1 Pro는 보안 취약점, MCP 전환, Workflow Engine 등 3 Pro가 놓친 깊은 인사이트 발견
  • 3 Pro는 2배 빠르고 바로 실행 가능한 코드 제안에 강점
  • 가격은 동일 ($2/1M input) — 3.1 Pro는 사실상 무료 업그레이드

왜 이 테스트를 했나

Gemini 3.1 Pro가 2026년 2월 19일에 출시됐다. 벤치마크 숫자는 인상적이다:

벤치마크3 Pro3.1 Pro향상
ARC-AGI-231.1%77.1%+148%
SWE-Bench Verified~68%80.6%+18%
GPQA Diamond~87%94.3%+8%

하지만 벤치마크는 벤치마크일 뿐이다. 진짜 내 코드를 읽고 분석하면 어떨까?

Gemini 3 Pro vs 3.1 Pro 비교


테스트 대상: Codemon Make

AI 에이전트(PM, Dev, QA)가 소프트웨어 개발을 자동으로 수행하는 플랫폼이다. 직접 만들고 있다.

  • 규모: Turborepo monorepo, 116개 TypeScript 파일, 112K chars
  • 기술 스택: Next.js 15 + BullMQ + Redis + PostgreSQL (Drizzle ORM)
  • 구조: 3개 AI 에이전트 → 3개 승인 게이트 → Claude Code CLI로 코딩
  • 상태: 초기 단계. 동작은 하지만 개선할 게 산더미

완벽한 테스트 대상이다 — 복잡하고, 개선점이 많고, AI가 실제로 코드를 읽어야만 의미 있는 피드백을 줄 수 있다.


테스트 방법

공통 조건

  • 코드: packages/agent-core/src/ + packages/db/src/ + 설정 파일 (112K chars)
  • 프롬프트: 동일한 4가지 질문 (아키텍처 리뷰, 위임 패턴, 리팩토링, 확장)
  • 언어: 한국어 답변 요청
  • 출력 요구: 파일명/함수명 언급하는 코드 레벨 분석

차이점

Gemini 3 ProGemini 3.1 Pro
호출 방식oracle CLI (API)curl 직접 호출
Thinking없음Budget 8,192 토큰

결과 비교

기본 수치

항목3 Pro3.1 Pro
입력 토큰120,35032,666
출력 토큰2,5002,226
Thinking 토큰1,909
소요 시간55.6초~120초
비용$0.27~$0.08

3.1 Pro의 입력 토큰이 적은 이유: 동일한 코드지만 토큰화 효율이 다른 것으로 추정.


둘 다 찾아낸 것 (공통)

두 모델 모두 정확하게 짚은 포인트들이다:

  1. CLI JSON 파싱 취약성 — stdout에 로그 섞이면 JSON.parse 실패
  2. 좀비 프로세스 문제 — claude CLI 자식 프로세스 미정리
  3. One Session → Iterative 전환 권장 — 이슈 단위 순차 처리
  4. 파일시스템 의존성/tmp/ 경로 스케일아웃 불가
  5. Wiki 기반 컨텍스트 전파 = 강점.wiki/ 폴더 방식 높이 평가

기본기는 둘 다 탄탄하다. 여기까지만 보면 차이가 없어 보인다.


3.1 Pro만 찾아낸 것 — Thinking의 힘

여기가 핵심이다.

🔴 보안 취약점 (RCE)

3 Pro는 “파일시스템 의존성”이라고만 했다.

3.1 Pro의 답변:

“호스트 OS에서 직접 gitclaude를 실행하지 말고, Docker 컨테이너 내부에서 워크스페이스를 마운트하여 실행하도록 변경하세요.”

--dangerously-skip-permissions로 호스트에서 직접 실행하면 악의적 코드가 서버를 파괴할 수 있다고 짚었다. 보안 관점까지 파고든 것.

🟠 MCP 전환 제안

3 Pro는 tree-kill로 프로세스 정리하라고 했다 (단기 해결).

3.1 Pro:

“CLI 래핑은 임시방편입니다. Anthropic API와 MCP를 활용하여 커스텀 에이전트 루프를 구현해야 예외 처리가 가능합니다.”

근본적으로 CLI에서 API+MCP로 전환해야 한다는 장기 아키텍처 제안.

🟡 Workflow Engine 필요성

3 Pro는 “큐 분리 + 우선순위”로 해결하라고 했다.

3.1 Pro:

“7개 에이전트가 되면 orchestrator의 이벤트 라우팅이 스파게티가 됩니다. XState나 Temporal.io로 DAG 관리가 필요합니다.”

상태 머신/워크플로우 엔진 도입까지 제안. 확장성 관점의 차이.

🟢 Context Hydration

“다음 이슈를 시작할 때, 이전 이슈들의 커밋 메시지와 변경된 파일의 인터페이스(타입 정의 등)만 요약하여 프롬프트에 주입합니다.”

Iterative 전략의 구체적 실행 방법 + 기존 .wiki/ 방식이 “좋은 시작점”이라는 연결까지.

🔵 BullMQ Flow

dependsOn(BullMQ Flow 기능)을 활용해 이슈 간 체이닝하도록 변경하세요.”

BullMQ의 구체적 API까지 언급. 3 Pro는 “순차적으로 큐에 넣으라”는 수준이었다.


우선순위도 달랐다

순위3 Pro3.1 Pro
1위tree-kill 프로세스 정리Docker 샌드박스 (보안)
2위Iterative 전략JSON 파싱 방어
3위Redis Semaphore실시간 로그 (Pub/Sub)
4위에이전트 분리이슈 단위 큐잉 (BullMQ Flow)

3 Pro: “일단 안 죽게 하자” (안정성 우선)

3.1 Pro: “근본부터 바꾸자” (아키텍처 우선)


가격 비교

3.1 Pro의 진짜 무서운 점은 가격이 3 Pro와 동일하다는 것이다.

모델Input/1MOutput/1M상대 비용
Gemini 3.1 Pro$2.00$12.001x
Gemini 3 Pro$2.00$12.001x
Claude Sonnet 4.6$3.00$15.001.5x
GPT-5.2~$10.00~$30.005x
Claude Opus 4.6$15.00$75.007.5x

112K 코드를 분석하는 데 $0.27. Opus로 같은 작업을 하면 $2.00 이상. 가성비가 압도적이다.


결론: 언제 뭘 쓸까

Gemini 3 Pro를 쓸 때

  • ⚡ 빠른 코드 리뷰 (55초)
  • 💰 비용 최소화 (thinking 토큰 없음)
  • 🔧 바로 적용 가능한 코드 수정

Gemini 3.1 Pro를 쓸 때

  • 🏗️ 아키텍처 설계/리뷰
  • 🔒 보안 감사 (RCE, 격리, 권한 분석)
  • 📐 확장 계획 (에이전트 추가, 스케일아웃)
  • 🧠 “왜?”를 알고 싶을 때

한 줄 정리

3 Pro는 “뭘 고칠지” 알려주고, 3.1 Pro는 “왜 고쳐야 하는지”까지 알려준다. 가격은 같다.


부록: 실제 프롬프트

## 프로젝트: Codemon Make — AI 외주 자동화 플랫폼

### 분석 요청 (한국어)
1. 아키텍처 리뷰: 강점/약점, 확장성, 유지보수성
2. 에이전트 위임 패턴: dev-worker.ts의 Claude Code CLI 호출 문제점과 개선안
3. One Session Strategy 장단점 + 대안
4. 3→7 에이전트 확장 고려사항

코드 레벨로 파일명/함수명 언급하며 구체적으로.
실행 가능한 개선안 우선순위 포함.

+ 112K chars (116 TypeScript 파일)