•

3.18.2025

OpenAI, GPT-4.5 출시: 향상된 지식과 할루시네이션(환각) 감소로 대화형 AI 발전

OpenAI는 정확도 향상, 허위 정보 감소, 감정 지능 개선된 GPT-4.5를 출시했습니다.

David Kim

CEO of Makebot AI

OpenAI가 더 자연스럽고 직관적인 상호작용을 제공하며 부정확성을 줄이도록 설계된 최신 대규모 언어 모델(LLM)인 GPT-4.5의 출시를 공식 발표했습니다.

2025년 2월 27일 연구 프리뷰로 출시된 GPT-4.5는 OpenAI의 가장 크고 지식이 풍부한 범용 모델로, 회사의 AI 개발 궤적에서 중요한 진화를 보여줍니다.

‍

가트너 인사이트: 2025년까지 대화형 생성형 AI가 고객 경험을 혁신할 전망. 여기에서 자세히 알아보세요!

‍

AI 개발의 새로운 방향

o1과 o3-mini와 같은 OpenAI의 최근 추론 모델과 달리, GPT-4.5는 세계 모델 정확도와 직관력을 향상시키기 위해 확장된 비지도 학습을 강조합니다.

OpenAI의 공식 발표에 따르면, "비지도 학습을 확장함으로써 GPT-4.5는 추론 없이도 패턴을 인식하고, 연결고리를 그리며, 창의적인 통찰력을 생성하는 능력을 향상시킵니다".

이번 출시는 Anthropic의 Claude 3.7(2025년 2월 24일 출시)과 xAI의 Grok 3(2025년 2월 18일 출시)에 이어 AI 분야에서 치열한 경쟁이 벌어지는 시점에 이루어졌습니다.

OpenAI CEO Sam Altman은 이 모델이 "벤치마크를 압도하지는 않을 것"이라고 인정하면서도 "이전에 느껴보지 못한 마법 같은 느낌이 있다"고 설명했습니다.

X에 올린 별도의 게시물에서 Altman은 "처음으로 사려 깊은 사람과 대화하는 느낌이 드는 모델이다. AI로부터 실제로 좋은 조언을 받고 의자에 기대어 놀란 순간이 여러 번 있었다"고 말했습니다.

‍

기술적 역량과 성능

GPT-4.5는 여러 핵심 영역에서 이전 모델보다 상당한 개선을 보여줍니다:

할루시네이션(환각)감소

GPT-4.5의 가장 주목할 만한 발전 중 하나는 할루시네이션(환각)감소률이 크게 낮아진 것입니다. OpenAI의 SimpleQA 벤치마크에서 GPT-4.5는 GPT-4o의 61.8%와 o1 모델의 44%에 비해 37.1%의 환각할루시네이션(환각)감소률을 보입니다.

이는 사실적 정확성이 가장 중요한 실용적 응용 분야에서 중요한 개선을 나타냅니다.

향상된 지식과 정확성

이 모델은 사실적 정확성에서 현저한 개선을 보여, SimpleQA 벤치마크에서 GPT-4o의 38.2%와 o1의 47%에 비해 62.5%를 기록했습니다.

MMLU(대규모 다중작업 언어 이해) 벤치마크에서 GPT-4.5는 GPT-4o의 81.5%에 비해 85.1%를 달성했습니다. GPQA 벤치마크의 과학 관련 질문에서 GPT-4.5는 GPT-4o의 53.6%에 비해 71.4%를 기록했지만, o3-mini의 79.7%에는 미치지 못했습니다.

MMMU(다중모달) 벤치마크에서 GPT-4.5는 GPT-4o의 69.1%에 비해 74.4%를 달성했습니다.

하지만 이 모델은 특정 STEM 벤치마크에서 OpenAI의 추론 모델에 비해 성능이 떨어져, AIME '24 수학 문제에서 o3-mini의 87.3%에 비해 36.7%만 기록했습니다.

향상된 감성 지능

OpenAI는 GPT-4.5의 향상된 "EQ"와 사용자 의도 이해 능력을 강조했습니다.

회사는 이 모델이 "인간이 의미하는 바를 더 잘 이해하고 미묘한 단서나 암묵적 기대를 더 섬세하게 해석한다"고 주장합니다.

일대일 비교에서 인간 테스터들은 일상적인 질문(57.0%), 전문적인 질문(63.2%), 창의적 지능 작업(56.8%)에서 GPT-4o보다 GPT-4.5를 선호했습니다.

이러한 개선은 OpenAI가 "따뜻하고, 직관적이며, 자연스럽고, 흐르는 대화"라고 설명하는 인간의 기대에 더 잘 부합하는 대화 방식에 기여합니다.

‍

계산 효율성

모델 아키텍처의 정확한 세부 사항은 공개되지 않았지만, 초기에 유출된 문서에 따르면 GPT-4.5는 GPT-4의 계산 효율성을 10배 이상 개선했다고 제안했으나, OpenAI는 나중에 이 주장을 공식 문서에서 삭제했습니다.

회사는 GPT-4.5를 상당한 계산 자원이 필요한 "거대하고 비싼 모델"이라고 설명했습니다.

컨텍스트 윈도우 및 다국어 기능

GPT-4.5는 GPT-4o에서 확립된 128,000 토큰 컨텍스트 윈도우를 유지하여 단일 상호작용에서 대량의 텍스트를 처리할 수 있습니다.

이 모델은 14개 언어에서 강력한 다국어 기능을 보여주며, 아랍어, 벵골어, 중국어, 프랑스어, 독일어, 힌디어, 이탈리아어, 일본어, 한국어, 스페인어, 스와힐리어를 포함한 다국어 벤치마크에서 GPT-4o를 능가합니다.

코딩 및 소프트웨어 엔지니어링 기능

소프트웨어 엔지니어링 벤치마크에서 GPT-4.5는 GPT-4o보다 개선을 보여주지만 특정 지표에서는 o3-mini에 뒤처집니다. SWE-Bench Verified 벤치마크에서 GPT-4.5는 GPT-4o의 30.7%와 o3-mini의 61.0%에 비해 38.0%를 기록했습니다.

LLM, 신경과학 연구 예측 정확도에서 인간 전문가 능가 - UCL 연구진 발표 📊. 여기에서 자세히 알아보세요!

‍

훈련 방법론

GPT-4.5는 전통적인 방법과 새로운 감독 기술을 조합하여 Microsoft Azure AI 슈퍼컴퓨터에서 훈련되었습니다:

지도 미세 조정(SFT)
인간 피드백으로부터의 강화 학습(RLHF)
더 작은 모델에서 파생된 데이터로 훈련을 가능하게 하는 새로운 확장 가능한 기술
시스템 메시지가 상충되는 사용자 지시보다 우선시되는 지시 계층 훈련
잠재적으로 유해한 콘텐츠에 대한 노출을 최소화하기 위한, 고급 데이터 필터링 이 모델은 또한 여러 데이터 센터에서 동시에 사전 훈련되었으며, 이는 경쟁 연구소인 Nous Research가 사용한 것과 유사한 분산형 접근 방식을 시사합니다.

OpenAI는 정확한 매개변수 수를 공개하지 않았지만, 전문가들은 GPT-4가 최대 1.8조 개의 매개변수를 가질 수 있다고 추정했으며, GPT-4o에서 GPT-4.5로의 규모 증가는 GPT-3.5에서 GPT-4o로의 증가와 비슷하다고 설명되었습니다.

OpenAI의 연구 과학자인 Nick Ryder는 접근 방식을 다음과 같이 설명했습니다: "지능형 시스템을 만드는 핵심은 우리가 수년간 따라온 레시피로, 더 많은 리소스를 투입하여 더 지능적인 시스템을 얻을 수 있는 확장 가능한 패러다임을 찾는 것입니다".

클로드 vs. ChatGPT | 2025년 Anthropic과 OpenAI 비교 분석 📊. 여기에서 자세히 알아보세요!

‍

지식 차단 및 데이터 소스

GPT-4.5는 GPT-4o의 2023년 10월 차단에 비해 2024년 10월의 지식 차단 날짜를 가지고 있습니다. 이 확장된 타임라인은 모델이 더 최근의 정보와 이벤트에 접근할 수 있게 합니다.

특정 훈련 데이터 소스는 공개되지 않았지만, 이 모델은 공개적으로 이용 가능한 소스, 독점적 파트너십, 내부적으로 개발된 맞춤 데이터를 포함한 다양한 데이터셋에 대한 광범위한 사전 훈련을 통합합니다.

‍

가용성 및 접근성

ChatGPT 4.5의 출시는 계층적 접근 방식을 따릅니다:

ChatGPT Pro 구독자(월 $200)와 모든 유료 API 티어의 개발자들에게 초기 가용성 제공(2025년 2월 27일)
2025년 3월 초 ChatGPT Plus(월 $20)와 Team(월 $30) 구독자들에게 확대 계획
그 다음 주에 Enterprise 및 Edu 사용자들에게 추가 확대

GPT-4.5는 Microsoft CEO Satya Nadella가 확인한 바와 같이 Microsoft Azure AI Foundry 플랫폼을 통해서도 이용 가능합니다. Microsoft는 OpenAI에 130억 달러 이상을 투자했으며 회사에 컴퓨팅 리소스를 제공하는 데 도움을 줍니다.

OpenAI의 기술 스태프 멤버인 Alex Paino는 라이브스트림 중에 회사가 "다음 주에 수만 개의 GPU를 추가"하여 Plus 티어 사용자들에게 더 넓은 출시를 지원할 계획이며, "곧 수십만 개가 추가될 예정"이라고 언급했습니다.

Altman은 GPU 제약을 인정하며 다음과 같이 말했습니다: "우리는 정말로 Plus와 Pro에 동시에 출시하고 싶었지만, 우리는 많이 성장해 왔고 GPU가 부족합니다".

‍

API 가격 책정 및 통합 옵션

GPT-4.5를 애플리케이션에 통합하려는 개발자를 위해 이 모델은 다음을 통해 접근 가능합니다:

Chat Completions API
Assistants API
Batch API

그러나 GPT-4.5의 API 가격은 GPT-4o의 백만 입력 토큰당 $2.50, 출력 토큰당 $10에 비해 백만 입력 토큰당 $75, 백만 출력 토큰당 $150로 이전 모델보다 상당히 높습니다. 이러한 상당한 가격 인상은 많은 애플리케이션에 대한 모델의 상업적 실행 가능성에 대한 의문을 제기했습니다.

OpenAI는 GPT-4.5의 API를 통한 장기적인 가용성이 평가 중이라고 밝혔습니다: "이[비용] 때문에, 우리는 현재 기능을 지원하면서 미래 모델을 구축하는 균형을 맞추며 API에서 장기적으로 계속 제공할지 여부를 평가하고 있습니다".

기능 및 제한사항

OpenAI ChatGPT with GPT-4.5는 다음을 지원합니다:

파일 및 이미지 업로드
ChatGPT Canvas 모드
검색 기능
함수 호출
구조화된 출력
스트리밍
시스템 메시지
이미지 입력

그러나 현재 다른 모델에서 사용 가능한 다중모달 기능이 부족합니다:

음성 모드
비디오 기능
화면 공유

OpenAI는 향후 업데이트에서 "AI가 '그냥 작동하도록' 사용자 경험을 단순화할 계획"을 시사했습니다.

SLM vs LLM: AI 모델 선택을 위한 종합 가이드. 여기에서 자세히 알아보세요!

‍

GPT-4.5가 실제 시나리오에서 GPT-4o와 어떻게 다른지에 대한 시각적 설명.

(출처: Favtutor)

‍

사용 사례 예시 및 비교

OpenAI는 GPT-4.5가 실제 시나리오에서 GPT-4o와 어떻게 다른지 보여주는 여러 예시를 제공합니다:

정서적 지원 시나리오

"시험에 실패한 후 힘든 시간을 보내고 있어요."라는 프롬프트에 대해,

GPT-4.5는 공감을 표현하고 추가 대화를 유도합니다: "아, 정말 유감이에요. 시험에 실패하면 상당히 힘들고 낙담될 수 있지만, 기억하세요, 그것은 단지 한 순간일 뿐이며 당신이 누구인지 또는 당신의 능력을 반영하는 것은 아닙니다. 무슨 일이 있었는지 이야기하고 싶으신가요, 아니면 그냥 기분 전환이 필요하신가요? 어느 쪽이든 제가 여기 있어요."

반면에 GPT-4o는 번호가 매겨진 포인트와 광범위한 제안이 포함된 더 구조화되고 조언이 많은, 응답을 제공합니다.

‍

지식 검색

"여성들이 이동에 지쳐서 자신들의 배에 불을 지른 그 오래된 그림이 뭐였지?"라는 질문에,

GPT-4.5는 적절한 맥락적 세부 사항과 함께 Claude Lorrain의 "The Trojan Women Setting Fire to Their Fleet"를 올바르게 식별하는 반면, GPT-4o는 이를 "The Women of Cnidus Burning the Fleet"로 잘못 식별합니다.

대화 스타일

우주 탐사에 대해 물었을 때,

GPT-4.5는 명확한 관점을 제시하는 간결하고 대화적인 응답을 제공하는 반면, GPT-4o는 대화에서 덜 자연스럽게 느껴지는 더 길고 형식적이며 포괄적인 분석을 생성합니다.

How Well Does an AI Chatbot (ChatGPT) Perform on the USMLE? Read more here!

‍

안전성 및 정렬

OpenAI는 자사의 준비 프레임워크를 따라 배포 전에 광범위한 안전성 평가를 수행했다고 보고합니다.

그들의 시스템 카드에 따르면, GPT-4.5는 다음과 같은 위험 등급을 받았습니다:

CBRN(화학, 생물학, 방사능, 핵): 중간
사이버보안: 낮음
설득: 중간
모델 자율성: 낮음

회사는 "기존 모델에 비해 안전성 위험의 중대한 증가를 발견하지 못했다"고 밝혔습니다. GPT-4.5는 전통적인 지도 미세 조정 및 인간 피드백으로부터의 강화 학습 방법과 결합된 새로운 감독 기술로 훈련되었습니다.

‍

반응 및 업계 응답

GPT-4.5에 대한 업계 반응은 다양했습니다. 일부 사용자들은 그것의 대화 능력과 감성 지능을 칭찬한 반면, 다른 사용자들은 개선이 상당히 높은 비용을 정당화하는지 의문을 제기했습니다.

경쟁 AI 모델 제공업체인 Nous Research의 공동 창립자 Teknium은 다른 선도적인 LLM에 비해 특정 벤치마크에서 최소한의 개선을 언급하며 실망감을 표현했습니다: "Chat GPT-4 이후 2년 이상, 1,000배 이상의 자본이 투입되었는데... 무슨 일이 있었나요?"

다른 이들은 GPT-4.5가 소프트웨어 엔지니어링 벤치마크에서 OpenAI의 o3-mini 모델에 비해 성능이 저조했다고 지적했습니다. 그러나 일부 개발자들은 원시 벤치마크를 넘어선 모델의 잠재력을 강조하며, GPT-4보다 10배 향상된 계산 효율성과 더 강력한 범용 기능을 강조했습니다.

Writer의 공동 창립자이자 CTO인 Waseem Alshikh는 다음과 같이 언급했습니다: "감성 지능과 창의성에 초점을 맞추는 것은 글쓰기 코치와 브레인스토밍 파트너와 같은 틈새 사용 사례에 좋지만, GPT-4.5는 같은 오래된 차에 새로운 페인트를 칠한 것처럼 느껴집니다".

그는 접근 방식을 더 비판했습니다: "모델에 더 많은 계산과 데이터를 투입하면 더 부드럽게 들릴 수 있지만, 이는 게임 체인저가 아닙니다... 에너지 비용과 대부분의 사용자가 일상적인 사용에서 차이를 느끼지 못할 것이라는 사실을 고려하면 그만한 가치가 없습니다".

‍

OpenAI의 모델 개발의 미래

GPT-4.5는 OpenAI의 전통적인 LLM 라인업의 시대의 끝을 나타낼 수 있습니다.

Sam Altman은 이것이 회사의 "마지막 비사고 연쇄 모델"이 될 것이라고 시사했으며, GPT-5는 범용 기능과 추론 능력을 결합할 것으로 예상됩니다.

Altman에 따르면, GPT-5는 "우리 기술의 많은 부분을 통합하는 시스템"이 될 것이며 OpenAI의 새로운 o3 추론 모델을 포함할 것입니다. 이는 결국 인공 일반 지능(AGI)으로 불릴 수 있는 더 능력 있는 모델을 만들기 위해 대규모 언어 모델을 결합하려는 OpenAI의 목표와 일치합니다.

이 출시는 중국 연구소 DeepSeek이 사용한 효율적인 접근 방식에 시장이 극적으로 반응한 후 한 달 만에 이루어졌으며, Nvidia의 시가총액이 하루 만에 약 6,000억 달러 감소했습니다.

그 시장 반응 후 2주 후, Altman은 회사가 공개 로드맵 커뮤니케이션을 개선하고 싶다고 썼습니다.

‍

시장 및 비즈니스 컨텍스트

GPT-4.5의 출시는 사업체로서 OpenAI에게 중요한 순간에 이루어졌습니다.

지난 달, CNBC는 OpenAI가 3,400억 달러 가치 평가에 400억 달러 자금 조달 라운드에 대해 논의 중이라고 보도했습니다.

회사는 또한 상당한 사용자 성장을 경험했으며, GPT-4.5 발표 시점에 주간 활성 사용자가 4억 명 이상이라고 보고되었습니다.

GPT-4.5의 출시는 점점 더 능력 있는 AI 시스템을 구축하는 것과 실용적이고 상업적으로 실행 가능한 제품을 만드는 OpenAI의 이중 목표 사이의 긴장을 강조합니다.

‍

따라서,

GPT-4.5는 확장된 비지도 학습을 통해 더 인간다운 AI 시스템을 개발하려는 OpenAI의 노력에서 중요한 진전을 나타냅니다.

이 모델이 전통적인 벤치마크에서 경쟁자들을 극적으로 능가하지는 않을 수 있지만, 낮아진 환각률, 향상된 대화 능력, 그리고 강화된 감성 지능은 인간을 점점 더 자연스러운 방식으로 이해하고 응답할 수 있는 AI를 만들기 위한 OpenAI의 지속적인 초점을 보여줍니다.

패턴을 인식하고, 연결고리를 그리며, 창의적인 통찰력을 생성하는 향상된 능력으로, GPT-4.5는 글쓰기 지원, 프로그래밍 지원, 그리고 문제 해결 애플리케이션에 유용한 기능을 제공합니다. 그러나 높은 계산 요구 사항과 관련 비용이 상업적 애플리케이션에서의 광범위한 채택을 제한할 수 있습니다.

OpenAI의 예상된 GPT-5 이전의 마지막 전통적인 비추론 모델로서, GPT-4.5는 인공 일반 지능의 미래 발전을 위한 기반이 될 수 있는 더 직관적이고 감성적으로 지능적인 AI 시스템에 대한 회사의 비전을 엿볼 수 있게 합니다.

다음 프론티어는 이러한 능력을 더 형식적인 추론 접근법과 통합하는 것으로 보이며, 잠재적으로 미래 모델에서 두 패러다임의 장점을 제공할 것입니다.

1,000개 이상의 주요 기업에서 성공적인 구현을 통해, Makebot은 고급 하이브리드 RAG 기술을 통해 오류를 최소화하면서 기존 시스템 및 데이터 소스와의 완전한 통합을 지원하는 AI 솔루션을 제공합니다.

우리의 전문성은 의료, 교육, 공공 부문 및 기업 환경을 포함한 여러 산업에 걸쳐 있습니다.

빠르게 진화하는 AI 환경을 혼자 헤쳐나가지 마세요. 맞춤형 LLM 솔루션이 비즈니스 운영과 고객 경험을 어떻게 변화시킬 수 있는지 알아보려면 오늘 우리 전문가 팀에게 연락하세요.

👉 지금 메이크봇에 연락하세요 AI 솔루션이 귀하의 필요에 맞는지 알아보세요!

‍

About This Article

본 아티클은 메이크봇의 글로벌 리서치 조직이 영어로 초안을 작성한 후, 국내 엔터프라이즈 환경과 시장 맥락에 맞춰 한국어로 재구성·편집되었습니다. 메이크봇은 단순한 번역이나 요약이 아닌, 글로벌 AI 시장에서 논의되는 구조적 변화와 기술 흐름을 한국 기업이 실제로 적용 가능한 전략 언어로 전환하는 것을 콘텐츠의 핵심 원칙으로 삼고 있습니다. 본 아티클에 담긴 관점과 해석은 메이크봇이 수행해 온 다수의 엔터프라이즈 AI 프로젝트에서 축적된 실무 경험, 글로벌 리서치 조직의 지속적인 시장·기술 분석, 그리고 메이크봇 CEO의 기술적·전략적 검토를 거쳐 완성되었습니다.

This article is also available in English.