AI

OpenAI, 차세대 시뮬레이션 추론 모델 o3와 o3-mini 발표

네야_IT 2024. 12. 28. 00:38
반응형

금요일, OpenAI의 "12 days of OpenAI" 이벤트 마지막 날에, CEO 샘 알트먼은 새로운 AI "추론" 모델인 o3o3-mini를 발표했습니다. 이 모델들은 올해 초 출시된 o1 모델을 기반으로 한 업그레이드 버전입니다. 공식 출시는 아직 미정이지만, OpenAI는 오늘부터 공공 안전 테스트와 연구 목적으로 이 모델들에 대한 접근을 허용할 예정입니다.

 

새로운 모델은 OpenAI가 "Private Chain of Thought"이라고 부르는 기술을 활용합니다. 이는 모델이 응답하기 전에 내부 대화와 계획을 검토하는 방식으로, "시뮬레이션 추론(Simulated Reasoning, SR)"이라 불리는 고급 AI 기술을 구현합니다. 이는 기존의 대형 언어 모델(LLM)을 넘어서는 성능을 제공합니다.

이름 선정 배경

이번 모델군이 "o2"가 아닌 "o3"로 명명된 이유는 영국 통신사 O2와의 상표권 충돌 가능성을 피하기 위해서입니다. 금요일 라이브 스트림에서 알트먼은 OpenAI의 작명 실수를 인정하며, "OpenAI가 이름 짓기에 진짜로 서툴다는 전통에 따라 이 모델 이름은 o3입니다."라고 농담했습니다.

뛰어난 성능 기록

OpenAI에 따르면, o3 모델은 2019년 이후로 누구도 깨지 못한 ARC-AGI 벤치마크(시각적 추론 벤치마크)에서 기록적인 점수를 받았습니다.

  • 저연산 환경: 75.7%
  • 고연산 환경: 87.5% (85% 인간 성능에 가까운 수준)

또한, o3는 2024년 American Invitational Mathematics Exam에서 96.7%의 점수를 기록하며 단 한 문제를 틀렸습니다. GPQA Diamond(대학원 수준의 생물학, 물리학, 화학 문제 포함)에서는 87.7%를, EpochAI의 Frontier Math 벤치마크에서는 25.2%의 문제를 해결했습니다. 이는 이전 모델들이 2%를 넘지 못한 것에 비해 엄청난 진전입니다.

ARC Prize Foundation의 회장은 라이브 스트림에서 "이 결과를 보니 AI가 할 수 있는 일과 가능성에 대해 제 관점을 바꿔야 한다는 생각이 듭니다."라고 말했습니다.

o3-mini의 주요 특징

함께 발표된 o3-mini는 적응형 사고 시간을 제공하여 저속, 중속, 고속 처리 모드를 지원합니다. OpenAI는 고연산 모드에서 더 나은 결과를 얻을 수 있다고 설명했습니다. 또한, o3-mini는 Codeforces 벤치마크에서 이전 모델인 o1보다 더 나은 성능을 보였습니다.

시뮬레이션 추론의 성장

OpenAI의 발표는 다른 기업들도 SR 모델 개발에 나서는 가운데 이루어졌습니다.

  • Google은 목요일 Gemini 2.0 Flash Thinking Experimental을 발표했습니다.
  • 11월에는 DeepSeek이 DeepSeek-R1을 출시했고,
  • Alibaba의 Qwen 팀은 o1의 첫 "오픈" 대안이라고 부르는 QwQ를 선보였습니다.

이 새로운 AI 모델들은 기존 LLM을 기반으로 하지만, 결과를 스스로 검토하고 사고 과정을 반복적으로 진행하는 방식으로 조정되어 훈련 단계보다 실행(Inference) 단계에서 확장성을 극대화합니다. 이는 최근 훈련 단계에서의 성능 향상이 둔화된 것을 보완합니다.

출시 계획

OpenAI는 이번 SR 모델을 먼저 안전 연구자들에게 제공할 계획입니다. 알트먼은 o3-mini를 1월 말에 출시하고, 이어서 o3도 출시할 예정이라고 밝혔습니다.

반응형