GPT-5.3-Codex 출시 총정리 — 스스로를 만든 첫 모델, Terminal-Bench 77.3%, 실시간 협업까지

2월 10, 2026

"코드를 작성하는 에이전트에서, 컴퓨터로 거의 모든 일을 수행하는 에이전트로."

2026년 2월 5일, OpenAI가 GPT-5.3-Codex를 공개했습니다. 같은 날 앤트로픽의 Claude Opus 4.6이 출시되면서, 두 회사의 최신 모델이 불과 수십 분 간격으로 세상에 나오는 이례적인 상황이 벌어졌습니다. OpenAI 공식 발표에 따르면, GPT-5.3-Codex는 GPT-5.2-Codex의 프론티어급 코딩 성능과 GPT-5.2의 추론·전문 지식 역량을 하나의 모델에 결합한 것으로, 이전 대비 25% 더 빠르게 작동합니다. 연구, 도구 사용, 복잡한 실행이 수반되는 장시간 작업을 처리할 수 있으며, 작업 도중에도 동료처럼 맥락을 잃지 않고 상호작용할 수 있습니다.

가장 주목할 점: 스스로를 만드는 데 참여한 최초의 모델

OpenAI는 GPT-5.3-Codex가 "자신을 만드는 데 핵심적 역할을 한 최초의 모델"이라고 밝혔습니다. Codex 팀이 초기 버전을 활용하여 자체 학습 과정을 디버깅하고, 배포를 관리하며, 테스트 결과와 평가를 진단하게 했는데, Codex가 자체 개발을 얼마나 가속화했는지에 팀이 놀랐다고 전했습니다.

구체적으로, 연구팀은 Codex를 사용해 학습 과정을 모니터링하고 디버깅했으며, 학습 전반에 걸친 패턴을 추적하고, 상호작용 품질에 대한 심층 분석을 수행하고, 수정안을 제안하는 데 활용했습니다. 엔지니어링 팀은 Codex로 하네스를 최적화하고, 사용자에게 영향을 미치는 엣지 케이스가 발생했을 때 컨텍스트 렌더링 버그를 식별하고 낮은 캐시 적중률의 근본 원인을 찾았습니다. 출시 과정에서도 GPT-5.3-Codex가 트래픽 급증에 맞춰 GPU 클러스터를 동적으로 확장하고 지연 시간을 안정적으로 유지하는 데 도움을 주고 있다고 합니다.

벤치마크 성과: 코딩을 넘어 범용 에이전트로

OpenAI 공식 발표 기준, GPT-5.3-Codex의 주요 벤치마크 성과는 다음과 같습니다.

벤치마크	GPT-5.3-Codex (xhigh)	GPT-5.2-Codex (xhigh)	GPT-5.2 (xhigh)
SWE-Bench Pro (Public)	56.8%	56.4%	55.6%
Terminal-Bench 2.0	77.3%	64.0%	62.2%
OSWorld-Verified	64.7%	38.2%	37.9%
GDPval (wins or ties)	70.9%	-	70.9% (high)
Cybersecurity CTF	77.6%	67.4%	67.7%
SWE-Lancer IC Diamond	81.4%	76.0%	74.6%

특히 눈에 띄는 것은 Terminal-Bench 2.0에서 77.3%로 이전 SOTA를 크게 넘어선 점입니다. OpenAI에 따르면, GPT-5.3-Codex는 이전 모델보다 더 적은 토큰으로 이 성능을 달성했습니다. SWE-Bench Pro는 Python만 테스트하는 SWE-bench Verified와 달리 4개 언어에 걸친 더 엄격한 실전 소프트웨어 엔지니어링 평가로, 여기서도 56.8%로 최고 성능을 기록했습니다.

OSWorld-Verified에서는 64.7%로 GPT-5.2-Codex(38.2%) 대비 거의 두 배에 가까운 도약을 보여, 시각적 데스크톱 환경에서의 컴퓨터 사용 능력이 크게 향상되었음을 보여줍니다. 다만 이 수치는 동일 벤치마크에서 72.7%를 기록한 Anthropic의 Claude Opus 4.6보다는 낮습니다.

핵심 변화: '코드 작성'에서 '컴퓨터 위의 모든 작업'으로

1. 소프트웨어 생애주기 전체를 지원

OpenAI는 GPT-5.3-Codex가 코드 생성을 넘어 소프트웨어 생애주기 전체를 지원하도록 설계되었다고 강조합니다. 디버깅, 배포, 모니터링, PRD(제품 요구사항 문서) 작성, 카피 편집, 사용자 리서치, 테스트, 메트릭 관리 등 개발자·디자이너·PM·데이터 사이언티스트가 수행하는 폭넓은 업무를 처리할 수 있으며, 슬라이드 덱 제작이나 시트 데이터 분석 같은 비코딩 작업까지 확장됩니다.

2. 실시간 인터랙티브 협업 (Steering)

GPT-5.3-Codex의 또 다른 핵심 변화는 실시간 상호작용입니다. 모델이 최종 결과물을 내놓기를 기다리는 대신, 작업 중에 자주 진행 상황을 업데이트하며 사용자가 질문하고, 접근 방식을 논의하고, 방향을 조정할 수 있습니다. OpenAI는 이를 "동료와 함께 일하는 것"에 비유했으며, Codex 앱에서 Settings > General > Follow-up behavior에서 이 기능을 활성화할 수 있습니다.

3. 장시간 자율 작업 능력

OpenAI는 GPT-5.3-Codex의 프론트엔드 및 장시간 에이전트 역량을 시연하기 위해, 모델에게 레이싱 게임과 다이빙 게임을 각각 처음부터 만들게 했습니다. "develop web game" 스킬과 "버그를 고쳐라", "게임을 개선해라" 같은 일반적인 후속 프롬프트만으로, GPT-5.3-Codex가 수백만 토큰에 걸쳐 자율적으로 게임을 반복 개선했다고 밝혔습니다.

[프론트엔드 개선 사례] OpenAI는 GPT-5.3-Codex와 GPT-5.2-Codex에 동일한 랜딩 페이지를 만들게 했을 때, 5.3 버전이 연간 요금제를 할인된 월 가격으로 자동 표시하고, 3개의 사용자 후기가 자동 전환되는 캐러셀을 만들어 "더 완성되고 프로덕션에 가까운" 결과물을 기본으로 제공했다고 보고했습니다.

사이버보안: '고위험 역량' 최초 분류

OpenAI는 GPT-5.3-Codex를 자사 준비 프레임워크(Preparedness Framework) 하에서 사이버보안 관련 작업에 대해 "High capability(고위험 역량)"으로 분류한 최초의 모델이자, 소프트웨어 취약점 식별을 위해 직접 학습시킨 최초의 모델이라고 밝혔습니다. 사이버보안 CTF(Capture The Flag) 벤치마크에서 77.6%를 기록해 GPT-5.2-Codex(67.4%)를 크게 앞질렀습니다.

엔드투엔드 사이버 공격 자동화가 가능하다는 확정적 증거는 없다고 하면서도, OpenAI는 예방적 접근을 취하고 있다고 설명합니다. 안전 학습, 자동 모니터링, 고급 기능에 대한 신뢰 기반 접근, 위협 인텔리전스를 포함한 시행 파이프라인 등 가장 포괄적인 사이버보안 안전 스택을 배치했습니다.

방어적 활용을 위해 보안 연구 에이전트 Aardvark의 프라이빗 베타를 확대하고, Next.js 등 널리 사용되는 오픈소스 프로젝트에 대한 무료 코드베이스 스캐닝을 파트너십으로 제공합니다. 2023년 100만 달러로 시작한 사이버보안 보조금 프로그램도 1,000만 달러 규모의 API 크레딧으로 확대하여 오픈소스 소프트웨어와 핵심 인프라 시스템의 사이버 방어를 지원합니다.

인프라: NVIDIA GB200 NVL72와의 협업

GPT-5.3-Codex는 NVIDIA GB200 NVL72 시스템을 위해 공동 설계되고, 해당 시스템에서 학습 및 서빙됩니다. OpenAI는 인프라와 추론 스택의 개선을 통해 Codex 사용자에게 25% 더 빠른 상호작용과 결과를 제공한다고 밝혔습니다.

이용 방법 및 가격

GPT-5.3-Codex는 유료 ChatGPT 요금제 사용자에게 Codex 앱, CLI, IDE 확장, 웹에서 즉시 사용 가능합니다. 다만 API 접근은 아직 제공되지 않으며, "곧 안전하게 API 접근을 활성화할 예정"이라고만 밝혔습니다. 따라서 공식 API 토큰 가격도 아직 발표되지 않은 상태입니다. 참고로 이전 모델인 GPT-5.2-Codex는 API에서 입력 $1.75/MTok으로 제공되고 있습니다.

[Opus 4.6과의 비교 참고] 같은 날 출시된 Anthropic Claude Opus 4.6과 비교하면, GPT-5.3-Codex는 Terminal-Bench 2.0(77.3% vs 65.4%)에서 앞서고, Opus 4.6은 OSWorld(72.7% vs 64.7%)와 Humanity's Last Exam, GDPval-AA 등에서 앞서는 것으로 나타납니다. GPT-5.3-Codex는 코딩 에이전트 특화 모델이고, Opus 4.6은 범용 프론티어 모델이라는 포지셔닝 차이가 있어, 직접 비교에는 맥락을 고려할 필요가 있습니다.

자주 묻는 질문 (FAQ)

Q1: GPT-5.3-Codex는 어떻게 사용하나요?

A: 유료 ChatGPT 요금제(Plus, Pro, Team, Enterprise 등) 사용자라면 Codex 앱, CLI, IDE 확장, 웹에서 사용할 수 있습니다. API 접근은 아직 제공되지 않으며 추후 공개 예정입니다.

Q2: GPT-5.2-Codex와 가장 큰 차이는 무엇인가요?

A: OpenAI 공식 발표를 기준으로, GPT-5.3-Codex는 GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론·전문 지식 역량을 하나로 결합하면서 25% 더 빠릅니다. Terminal-Bench 2.0에서 77.3%(vs 64.0%), OSWorld-Verified에서 64.7%(vs 38.2%)로 에이전트 및 컴퓨터 사용 능력이 크게 향상되었습니다. 또한 작업 도중 실시간 상호작용과 방향 조정이 가능한 인터랙티브 협업 기능이 추가되었고, 소프트웨어 취약점 식별을 직접 학습한 최초의 모델이라는 점도 차별점입니다.

Q3: "스스로를 만들었다"는 것은 정확히 무슨 뜻인가요?

A: GPT-5.3-Codex가 처음부터 끝까지 혼자 자신을 만들었다는 뜻은 아닙니다. OpenAI 팀이 초기 버전의 Codex를 도구로 활용하여 학습 과정 디버깅, 배포 관리, 테스트 결과 진단, GPU 클러스터 동적 확장 등에 사용했다는 의미입니다. 즉, AI가 AI 개발을 가속화하는 데 핵심적 역할을 한 첫 사례라는 것이 OpenAI의 주장입니다.

[요약: GPT-5.3-Codex의 핵심 변화]

자기 개발 참여: 자체 학습 디버깅, 배포 관리, 테스트 진단에 초기 버전이 활용된 최초의 모델
코딩 + 추론 통합: GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론 역량을 결합, 25% 더 빠름
Terminal-Bench 2.0 SOTA: 77.3%로 이전 모델(64.0%) 대비 대폭 향상, 더 적은 토큰으로 달성
컴퓨터 사용 능력 도약: OSWorld-Verified 64.7%로 이전(38.2%) 대비 거의 두 배
실시간 인터랙티브 협업: 작업 중 진행 상황 업데이트, 질문·방향 조정 가능
사이버보안 고위험 역량: CTF 77.6%, 취약점 식별 직접 학습, Aardvark 베타 확대, $10M 보조금

출처: OpenAI 공식 발표 (2026.02.05)

이 블로그 검색

가성비 내비