클로드 오퍼스 4.6 출시 총정리 — 에이전트 팀, 1M 토큰 컨텍스트, 적응형 사고까지
"가장 똑똑한 모델이 업그레이드되었습니다."
2026년 2월 5일, 앤트로픽(Anthropic)이 자사의 최상위 AI 모델인 클로드 오퍼스 4.6(Claude Opus 4.6)을 공개했습니다. 앤트로픽 공식 발표에 따르면, 이번 모델은 이전 모델인 Opus 4.5의 코딩 능력을 개선한 것으로, 더 신중하게 계획하고, 에이전트 작업을 더 오래 지속하며, 대규모 코드베이스에서 더 안정적으로 작동하고, 스스로의 실수를 잡아내는 코드 리뷰 및 디버깅 능력이 향상되었습니다. 특히 Opus 급 모델로는 최초로 1M(백만) 토큰 컨텍스트 윈도우를 베타로 지원합니다.
벤치마크 성과: 어디서 가장 강한가
앤트로픽에 따르면, Opus 4.6은 에이전트 코딩 평가인 Terminal-Bench 2.0에서 65.4%로 업계 최고 점수를 기록했고, 복잡한 다학제 추론 시험인 Humanity's Last Exam에서도 모든 프론티어 모델을 앞질렀습니다. 경제적으로 가치 있는 지식 업무(금융, 법률 등)를 평가하는 GDPval-AA에서는 OpenAI의 GPT-5.2를 약 144 Elo 포인트 차이로, 이전 모델 Opus 4.5를 190 포인트 차이로 앞섰습니다. 온라인에서 찾기 어려운 정보를 검색하는 BrowseComp에서도 84.0%로 1위를 기록했습니다.
다만, 소프트웨어 엔지니어링 벤치마크인 SWE-bench Verified에서는 80.8%로, 이전 모델 Opus 4.5(80.9%)와 사실상 동일한 수준을 유지했습니다. 이는 이번 업데이트가 코드 생성 정확도 자체보다는 에이전트 능력과 장기 작업 지속성에 초점을 맞췄음을 시사합니다.
컴퓨터 사용(Computer Use) 능력을 측정하는 OSWorld 벤치마크에서는 72.7%로 Opus 4.5(66.3%) 대비 의미 있는 향상을 보였고, 새로운 문제 해결 능력을 측정하는 ARC AGI 2에서는 68.8%로 Opus 4.5(37.6%)를 크게 앞질렀습니다.
핵심 신기능: 에이전트 팀, 적응형 사고, 컨텍스트 압축
1. 에이전트 팀 (Agent Teams)
Claude Code에서 에이전트 팀 기능이 리서치 프리뷰로 도입되었습니다. 여러 에이전트를 병렬로 실행하여 팀처럼 자율적으로 협업하게 할 수 있으며, 코드베이스 리뷰처럼 독립적이고 읽기 위주의 작업에 특히 효과적입니다. 사용자는 Shift+Up/Down 또는 tmux를 통해 언제든 하위 에이전트를 직접 제어할 수 있습니다.
2. 적응형 사고 (Adaptive Thinking)
이전에는 확장 사고(Extended Thinking)를 켜거나 끄는 이진 선택만 가능했습니다. 이제 적응형 사고 기능을 통해 모델이 맥락 단서를 읽고 얼마나 깊이 사고할지 스스로 결정합니다. 또한 low, medium, high(기본값), max의 4단계 노력(Effort) 수준이 도입되어 개발자가 지능, 속도, 비용 사이의 균형을 세밀하게 조절할 수 있습니다.
3. 컨텍스트 압축 (Context Compaction)
장시간 대화나 에이전트 작업은 컨텍스트 윈도우 한계에 부딪히기 마련입니다. 컨텍스트 압축(베타) 기능은 대화가 설정 가능한 임계값에 접근하면 자동으로 오래된 컨텍스트를 요약·교체하여, 모델이 한계에 부딪히지 않고 더 긴 작업을 수행할 수 있게 합니다.
4. 확장된 출력과 장문 컨텍스트
Opus 4.6은 최대 128K 출력 토큰을 지원하여 이전(64K)의 두 배로 늘어났습니다. 또한 Opus 급 모델 최초로 1M 토큰 컨텍스트 윈도우를 베타로 지원하며, 200K 토큰 초과 시에는 프리미엄 가격($10/$37.50 per MTok)이 적용됩니다. 장문 컨텍스트 성능도 크게 개선되어, MRCR v2 벤치마크(1M 토큰 내 숨겨진 정보 검색)에서 76%를 기록해 Sonnet 4.5의 18.5%를 압도했습니다.
Rakuten: "Opus 4.6이 하루 만에 자율적으로 13개 이슈를 해결하고 12개 이슈를 적절한 팀원에게 할당했습니다. 6개 리포지토리에 걸친 약 50명 규모의 조직을 관리하면서, 제품과 조직 관련 결정을 동시에 처리했고, 인간에게 에스컬레이션해야 할 시점도 정확히 판단했습니다."
NBIM: "40건의 사이버보안 조사에서 Opus 4.6은 Claude 4.5 모델 대비 블라인드 랭킹에서 38번 최고 결과를 기록했습니다. 각 모델은 최대 9개의 하위 에이전트와 100회 이상의 도구 호출로 동일한 에이전트 하네스에서 실행되었습니다."
안전성: 지능 향상이 안전성 희생 없이 이루어지다
앤트로픽은 Opus 4.6에 대해 역대 가장 포괄적인 안전성 평가를 수행했다고 밝혔습니다. 자동화된 행동 감사(Automated Behavioral Audit)에서 Opus 4.6은 기만, 아첨(Sycophancy), 사용자 망상 조장, 오용 협력 등의 부정렬 행동 비율이 이전 모델 Opus 4.5와 동등하거나 더 낮았습니다. 동시에 무해한 질문을 거부하는 과잉 거부(Over-refusal) 비율은 최근 Claude 모델 중 가장 낮았습니다.
특히 Opus 4.6이 사이버보안 분야에서 강화된 능력을 보임에 따라, 잠재적 오용을 추적하기 위한 6개의 새로운 사이버보안 프로브(Probe)를 개발했습니다. 동시에 오픈소스 소프트웨어의 취약점을 발견하고 패치하는 등 사이버 방어 용도의 활용도 가속화하고 있습니다.
추가 제품 업데이트: Excel과 PowerPoint
Opus 4.6과 함께 Claude in Excel이 대폭 개선되었으며, Claude in PowerPoint가 리서치 프리뷰로 새롭게 출시되었습니다. Excel에서 비정형 데이터를 처리하고 구조를 추론한 뒤, PowerPoint에서 시각적으로 표현하는 워크플로가 가능해졌습니다. Claude in PowerPoint는 사용자의 레이아웃, 폰트, 슬라이드 마스터를 읽어 브랜드 일관성을 유지하며, Max, Team, Enterprise 요금제에서 사용할 수 있습니다.
가격 및 이용 방법
Opus 4.6은 claude.ai, Anthropic API, Claude Code, 그리고 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 등 주요 클라우드 플랫폼에서 즉시 사용할 수 있습니다. API 모델 문자열은 claude-opus-4-6입니다. 가격은 이전과 동일하게 입력 토큰 $5/MTok, 출력 토큰 $25/MTok이며, 프롬프트 캐싱(Prompt Caching)을 활용하면 최대 90%, 배치 처리(Batch Processing)로는 50%의 비용 절감이 가능합니다. 200K 토큰을 초과하는 장문 컨텍스트 사용 시에는 $10/$37.50(MTok)의 프리미엄 가격이 적용됩니다.
자주 묻는 질문 (FAQ)
Q1: 오퍼스 4.6은 어떻게 사용할 수 있나요?
A: claude.ai 웹 인터페이스, Anthropic API(claude-opus-4-6), Claude Code, 그리고 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry를 통해 사용할 수 있습니다. GitHub Copilot에서도 일반 제공(GA)이 시작되었습니다.
Q2: 이전 버전인 Opus 4.5와는 어떤 점이 가장 다른가요?
A: 앤트로픽의 공식 발표를 기준으로, Opus 4.6의 주요 차별점은 다음과 같습니다. 첫째, Opus 급 최초의 1M 토큰 컨텍스트 윈도우(베타)와 128K 출력 토큰 지원. 둘째, Claude Code의 에이전트 팀 기능으로 여러 에이전트를 병렬 협업시킬 수 있게 됨. 셋째, 적응형 사고와 4단계 노력 수준으로 추론 깊이의 세밀한 제어 가능. 넷째, 컨텍스트 압축으로 장시간 에이전트 작업의 한계 극복. 코드 생성 정확도(SWE-bench) 자체는 4.5와 동등한 수준이나, 에이전트 코딩(Terminal-Bench 2.0), 컴퓨터 사용(OSWorld), 새로운 문제 해결(ARC AGI 2) 등에서 큰 폭의 성능 향상을 보였습니다.
Q3: Claude in PowerPoint는 누가 사용할 수 있나요?
A: 리서치 프리뷰로 출시되었으며, Max, Team, Enterprise 요금제 사용자가 이용할 수 있습니다.
- 에이전트 팀: Claude Code에서 여러 에이전트가 병렬로 협업하는 기능 (리서치 프리뷰)
- 적응형 사고 & 노력 수준: 모델이 스스로 추론 깊이를 조절하고, 개발자가 4단계(low/medium/high/max)로 제어 가능
- 1M 토큰 컨텍스트: Opus 급 최초, MRCR v2에서 76% 달성 (Sonnet 4.5는 18.5%)
- 컨텍스트 압축: 장시간 작업 시 오래된 컨텍스트를 자동 요약하여 한계 극복
- 128K 출력 토큰: 이전 64K의 두 배로 확장
- 안전성: 역대 가장 포괄적인 안전 평가, 사이버보안 프로브 6개 신규 개발
댓글
댓글 쓰기