Success Stories
2.24.2026

헬스케어 AI 에이전트 시대의 개막: 스탠퍼드가 제시한 로드맵

스탠퍼드는 의료 AI 에이전트의 실제 환경 안전성 평가 기준을 제시합니다.

Luke
Technical Market Researcher

생성형 AI의 급격한 확산은 헬스케어 분야에서 유례없는 변화를 불러오고 있습니다. 임상 업무 자동화, 행정 부담 감소, 인력 부족으로 고통받는 의료진 지원까지—의료 AI가 해결할 수 있는 가능성은 무궁무진합니다.그러나 환자의 생명과 안전이 직접 연관된 의료 분야에서 혁신은 단순한 ‘하이프’나 실험실 수준 평가만으로는 정당화될 수 없습니다. 병원 환경에서 신뢰할 수 있는지는 이론적 능력이 아닌 실제 성능이 결정합니다.

스탠퍼드 대학교는 바로 이 간극을 메우고 있습니다. 스탠포드는 현실적인 전자의무기록(EHR, Electronic Health Record - 환자의 의료 데이터를 병원 간 공유할 수 있도록 설계된 확장형 기록 체계) 환경에서 헬스케어 AI 에이전트의 역량을 평가하기 위한 최초의 종합 벤치마크 ‘MedAgentBench’를 구축하며, 말만 번지르르한 AI와 실제로 안전하고 의미 있는 임상 행동을 수행할 수 있는 AI를 명확히 구분할 수 있는 기준을 제시했습니다.

스탠퍼드가 발표한 새로운 벤치마크는 의료 AI 평가 기준을 지식 기반 모델에서 행동 기반 모델로 이동시키는 역사적 지표이며, 앞으로 의료기관·규제기관·AI 개발 기업이 따라야 할 방향성을 제시합니다.

메이크봇은 이미 산업별별 특화 AI 에이전트와 HybridRAG 기반 자동화 솔루션을 실제 병원 환경에서 운영해 온 기업으로서, 이러한 글로벌 벤치마크가 어떤 의미를 갖는지 분석하고, 국내와 아시아 의료체계에 어떤 시사점과 기회를 제공하는지 깊이 연구할 필요가 있다고 판단했습니다.

생성형 AI, 헬스케어에서 윤리적으로 진화하다 — Claude AI가 보여준 헌법적 혁신. 여기서 더 읽어보세요!

핵심 기술 용어 정리

Healthcare AI Agents (헬스케어 AI 에이전트). 의료 환경 내에서 임상 또는 행정 업무를 자율적 또는 반자율적으로 수행할 수 있는 인공지능 시스템을 의미합니다. 단순히 대화를 생성하는 챗봇과 달리, 전자의무기록(EHR) 시스템 안에서 환자 데이터 조회, 검사 처방, 약물 조정, 진료 기록 작성 등 다단계 워크플로우를 실제로 실행할 수 있는 시스템입니다.

FHIR (Fast Healthcare Interoperability Resources, 의료 상호운용성 표준). HL7에서 개발한 국제 의료 데이터 교환 표준으로, 서로 다른 의료 시스템 간에 안전하고 표준화된 방식으로 정보를 교환할 수 있도록 설계되었습니다. GET, POST와 같은 API 요청 방식을 활용하여 EHR 시스템과 애플리케이션, 그리고 AI 에이전트 간의 상호운용성을 지원합니다.

Agentic AI (행동 중심 인공지능). 텍스트 생선이나 예측에 그치지 않고, 정의된 시스템 환경 내에서 실제 행동을 수행하도록 설계된 인공지능 유형입니다. 의료 분야에서는 API 호출, 워크플로우 실행, 시스템 상호작용 등을 통해 구조화된 작업을 수행하는 AI 모델을 의미합니다.

Human-in-the-Loop (HITL, 인간 개입 기반 감독 체계). AI 시스템이 고위험 의사결정을 수행하기 전에 반드시 인간 전문가(예: 의사)의 검토 및 승인을 거치도록 하는 안전 설계 방식입니다. 이는 의료와 같이 안전성과 책임성이 중요한 분야에서 규제 준수와 임상 신뢰성을 확보하는 핵심 메커니즘입니다.

헬스케어 산업이 ‘실사용 기반 벤치마크’를 지금 당장 필요로 하는 이유

지금까지 가장 뛰어난 의료 AI 모델조차도 의료 지식 시험이나 질의응답 벤치마크에서는 탁월한 성과를 내왔습니다. GPT-4, Claude, Gemini와 같은 모델은 USMLE 시험에서 전문가 수준에 근접한 성능을 보이며 뛰어난 임상 지식을 증명했습니다.

그러나 실제 의료 현장은 객관식 시험처럼 깔끔하지 않습니다. 의사들은 복잡하게 얽힌 워크플로우, 불완전한 데이터 시스템, 시간에 쫓기는 의사결정, 엄격한 안전 규정 속에서 일합니다. 그리고 그들의 일상 과제는 다음과 같이 여러 단계를 포함합니다.

  • 환자 기록 조회
  • 검사 결과 및 활력징후 트렌드 분석
  • 영상 검사 및 처방 오더 입력
  • 약물 처방 또는 용량 조절
  • 진료 기록 문서화
  • 의뢰·추적 관리

즉, 지식 ≠ 업무 실행 . 대화 능력 ≠ 임상적 신뢰성

MedAgentBench 연구의 시니어 저자인 조너선 첸(Jonathan Chen)은 이를 명확히 요약합니다.  “챗봇은 말을 합니다. AI 에이전트는 행동을 합니다.”

그러나 지금까지는 EHR 환경 안에서 AI 에이전트가 ‘행동할 수 있는지’를 평가할 기준이 존재하지 않았습니다. 이러한 기준 없이 병원에 AI를 도입하면, 잘못된 용량 입력, 환자 혼동, 데이터 조회 누락과 같은 작은 실수도 심각한 결과를 초래할 수 있습니다.

스탠퍼드의 새로운 벤치마크는 바로 이 문제를 정면으로 겨냥합니다.

스탠포드는 어떻게 ‘최초의 실제 EHR 기반 에이전트 벤치마크’를 만들었나

MedAgentBench 프로젝트는 스탠퍼드 대학교의 의사·컴퓨터과학자·헬스인포매틱스 전문가들이 함께한 다학제 연구입니다. 핵심 설계 철학은 매우 간단합니다. “실제 임상 워크플로우를 반영한 가상 EHR 안에서 AI를 테스트하자.”

1. 실제 병원 환경을 그대로 구현한 가상 EHR 시스템

스탠퍼드 팀은 다음 요소를 갖춘 FHIR 기반 가상 EHR 시스템을 구축했습니다.

  • 100개의 현실적인 환자 프로필
  • 78만 5천 개의 임상 기록(검사, 약물, 진단, 활력징후, 영상, 시술 등 포함)
  • 불완전하고 종종 누락된 실제 환자 데이터를 반영한 ‘비정형 데이터 구조’

이를 통해 복잡하면서도 재현 가능한 환경에서 AI 에이전트의 행동을 정확하게 평가할 수 있습니다.

2. 의사들이 직접 설계한 300개의 임상 업무 과제

이 과제들은 현직 의사들이 직접 작성했으며, 10개 주요 임상 카테고리를 포괄합니다.

  • 구조화된 환자 데이터 조회
  • 검사·활력징후 변화 분석
  • 영상/검사 오더 입력
  • 약물 처방 및 조정
  • 진료기록 문서화
  • 의뢰 및 추적 관리

대부분의 과제는 2~3단계의 워크플로우로 구성되어 있으며, 정확한 FHIR(Fast Healthcare Interoperability Resources: 병원 간 의료 데이터를 동일한 구조로 교환하기 위한 국제 표준) API 활용(GET/POST), 적절한 데이터 해석, 안전한 오더 입력이 필요합니다.

3. 의료 안전 기준에 맞춘 엄격한 평가 체계

  • 첫 시도에서 정확히 수행해야 ‘성공’으로 인정
    → 실제 임상에서의 안전 기준을 그대로 반영

  • 각 에이전트는 최대 8회 상호작용, 9개 EHR 기능만 사용 가능
    → 과도한 시도나 비현실적인 접근 방지

결과는 무엇을 보여주는가: 강력한 가능성, 그리고 명확한 한계

스탠퍼드는 12개의 최신 생성형 AI 모델을 테스트했습니다. 결과는 의미 있지만, 아직 불균형적입니다.

모델별 전체 성공률(Success Rate, SR)

  • Claude 3.5 Sonnet v2 — 69.67%
  • GPT-4o — 64.00%
  • DeepSeek-V3 (685B) — 62.67%
  • Gemini-1.5 Pro — 62.00%
  • 오픈 모델(Qwen2.5, Llama 3.3) — 46~51%
  • 소형 모델(Gemma2, Mistral 7B) — 20% 미만

최고 성능 모델조차 인간 수준 신뢰성에는 못 미치지만, 감독 하에 반복되는 임상 보조 업무를 수행할 수 있는 능력은 충분히 드러났습니다.

공통적인 실패 유형

연구진은 대표적인 오류 패턴 두 가지를 발견했습니다.

1) 지시 이행 실패

  • 잘못된 FHIR API 호출
  • JSON 구조 오류
  • 의사 지시 오해

2) 출력 형식 불일치

  • 구조화된 값 대신 서술문 출력
  • 필수 필드 누락
  • 메타데이터 불일치

이 문제들은 기존의 ‘대화 중심 벤치마크’로는 절대 파악할 수 없었던, 워크플로우 신뢰성·상호운용성·안전성 문제를 명확히 드러냈습니다.

이 벤치마크가 헬스케어 AI에 전환점이 되는 이유

1. AI 평가 기준을 ‘지식’에서 ‘행동’으로 이동

이전까지 벤치마크가 물었던 질문:

  • “이 모델은 의학 지식을 알고 있는가?”

MedAgentBench가 던지는 새로운 질문:

  • “이 모델은 감독 아래 실제 의료 행위를 ‘안전하게’ 수행할 수 있는가?”

이 차이는 매우 큽니다. 앞으로 등장할 자율·반자율 임상 시스템은 말을 잘하는 AI가 아니라, 안전하게 행동할 수 있는 AI여야 합니다.

2. 규제 및 산업 요구와 정확히 맞물린다

FDA는 AI 기반 의료기기의 ‘실사용 성능(real-world performance)’에 더욱 집중하고 있습니다. 또한 많은 병원이 Responsible AI 프레임워크를 채택하고 있는 상황에서 스탠퍼드의 벤치마크는 다음을 제공합니다.

  • 재현 가능한 평가 체계
  • 임상적으로 의미 있는 지표
  • 명확한 오류 카테고리
  • 모델 간 비교를 위한 공동 기반

3. 의료진의 신뢰 확보 및 AI 도입 가속화

스탠퍼드 연구진은 일관된 메시지를 강조합니다. AI는 의사를 대체하는 것이 아니라, 보조하는 기술이라는 점입니다.

카메론 블랙(Kameron Black)은 말합니다. “AI가 당장 의사를 대체하지는 않을 것입니다. 오히려 의료 인력을 강화하는 역할을 할 것입니다.”

2030년까지 전 세계적으로 1,000만 명 이상의 의료 인력 부족이 예상되는 가운데, 문서 작업·EHR 탐색·행정 업무를 자동화할 수 있는 AI는 의료진의 번아웃을 줄이고 환자 케어의 질을 높이는 데 큰 도움을 줄 수 있습니다.

Deloitte : 헬스케어 리더 75%, 생성형 AI(Generative AI)로 진료와 운영 혁신 가속화. 여기 읽어보세요!

헬스케어 AI 에이전트가 가장 먼저 기여할 수 있는 분야

벤치마크 성능과 오류 패턴을 토대로 볼 때, 헬스케어 AI 에이전트가 가장 먼저 안전하게 활용될 수 있는 분야는 다음 세 가지입니다.

1. 행정 및 EHR 정리 업무

  • 차트 요약
  • 검사 결과 트렌드 조회
  • 약물 목록 업데이트
  • 구조화된 문서 작성

이러한 작업은 정확성이 필요하지만, 워크플로우가 비교적 예측 가능하고 위험도가 낮아 초기 도입에 특히 적합합니다.

2. 저위험 오더 보조

의료진이 최종 승인권을 유지한 상태에서, AI 에이전트는 다음과 같은 오더를 ‘초안(draft)’ 형태로 생성할 수 있습니다.

  • 검사 오더
  • 영상 검사 권고안
  • 약물 재처방

의사의 검토를 전제로 하기에 안전성을 확보할 수 있습니다.

3. 케어 코디네이션 및 환자 참여

스탠퍼드 헬스케어와 Qualtrics의 협업 사례처럼, 생성형 AI 에이전트는 다음과 같은 업무에서 큰 효과를 보여줍니다.

  • 방문 누락(노쇼) 탐지
  • 추적 관리 자동화
  • 퇴원 지연 병목 해소
  • 언어·자원 접근성 문제 식별

이러한 업무는 환자 안전에 직접 영향을 주지 않으면서도 전체 의료 흐름의 효율성을 크게 높여줍니다.

결론: 헬스케어 AI 에이전트의 도입. 어디부터 시작할까?

지금까지 살펴본 스탠퍼드의 MedAgentBench는 단순한 기술 비교 실험이나 모델 성능 평가가 아닙니다. 이 연구는 헬스케어 AI의 중심축이 ‘대화형 AI’에서 ‘행동하는 AI’로 이동하고 있다는 신호이며, 앞으로 의료기관이 AI 기술을 어떻게 평가하고 도입해야 하는지 기준을 재정립하고 있습니다.

즉, 이제 헬스케어 AI는 본격적으로 환자, 의료진을 대신하여 업무를 처리하는 AI로 도입이 되고 있다는 점입니다. 우리는 이번에 아래 사항을 체크하였습니다.

  • AI를 어떤 업무부터 적용해야 안전한가?
  • 도입 과정에서 반드시 필요한 통제와 승인 구조는 무엇인가?
  • 실제 병원 환경에서 검증 가능한 표준은 어떻게 구축해야 하는가?

스탠퍼드의 연구가 가지는 의미는 바로 여기에 있습니다.

이제 의료기관은 “언제 도입할 것인가?”가 아니라 “어떤 방식으로 도입해야 하는가?”를 논의해야 하는 단계에 들어섰습니다.

앞으로의 방향: 벤치마크에서 실제 도입으로

스탠퍼드 연구진은 AI 에이전트의 성능이 빠른 속도로 개선되고 있으며, 이미 일부 분야에서는 실제 병원 환경에서 안전하게 도입할 수 있는 수준에 이르렀다고 평가합니다.

안전한 도입을 위해 필요한 핵심 요소는 다음과 같습니다.

  • 안전장치(시간 제한, 역할 제한, 처방 제한 등)
  • 투명한 감사 로그(audit log)
  • 고위험 행동에 대한 인간 승인
  • 배포 이후 지속적 모니터링
  • 모델 업데이트를 관리하는 거버넌스 위원회

이러한 조건이 갖춰진다면, AI 에이전트는 실험적 도입(Pilot)을 넘어, 업무 자동화와 임상 지원의 실질적 역할을 수행할 수 있습니다.

한국의 AI 혁신을 세계에 알리다: 이탈리아 SIGIR 2025에서 공개된 메이크봇의 HybridRAG 프레임워크. 더 보기!

메이크봇: 적절하게 도입되는 AI, 실제로 작동하는 AI

이 지점에서 메이크봇의 역할이 명확해집니다. 메이크봇은 다양한 산업과 병원 환경에서 AI 기반 업무자동화를 구현하며, 특히 AI 에이전트 운영 경험과 HybridRAG 기반 의료 특화 기술을 보유하고 있습니다.

Stanford MedAgentBench가 제시한 기준은 메이크봇이 이미 추구해온 방향과 맞닿아 있습니다. 메이크봇의 솔루션은 다음을 기반으로 헬스케어 AI 개발에 최적화되어 설계되어 있습니다:

  • 실행 과정이 추적 가능하고 통제 가능한 운영 구조
  • 의료 데이터 특성에 맞춘 추론 로직
  • 기존 EMR/EHR 시스템과의 자연스러운 워크플로 정렬
  • 병원 조직 구조와 현실적 운영 프로세스를 고려한 적용 단계 설계

이미 여러 의료기관에서 검증된 도입 사례와 비용·정확도 효율성을 입증한 HybridRAG 기술을 바탕으로, 메이크봇은 병원이 실험 단계를 넘어 실제 운영 환경에서 AI의 가치를 실현할 수 있도록 지원합니다.

헬스케어 AI 도입은 이제 선택이 아닌 전략적 전환의 문제입니다. AI가 의사와 간호사를 대체하는 것이 아니라, 의료진이 환자에게 집중할 수 있도록 “업무와 시스템을 대신 수행하는 동료”로 자리잡는 과정이 시작되었습니다.

앞으로의 경쟁은 “AI를 사용할지 말지”가 아니라, “얼마나 빠르게, 그리고 얼마나 적절하게 도입할 수 있는가”에서 결정될 것입니다.

 👉 www.makebot.ai | 📩 b2b@makebot.ai 

About This Article

본 아티클은 메이크봇의 글로벌 리서치 조직이 영어로 초안을 작성한 후, 국내 엔터프라이즈 환경과 시장 맥락에 맞춰 한국어로 재구성·편집되었습니다. 메이크봇은 단순한 번역이나 요약이 아닌, 글로벌 AI 시장에서 논의되는 구조적 변화와 기술 흐름을 한국 기업이 실제로 적용 가능한 전략 언어로 전환하는 것을 콘텐츠의 핵심 원칙으로 삼고 있습니다. 본 아티클에 담긴 관점과 해석은 메이크봇이 수행해 온 다수의 엔터프라이즈 AI 프로젝트에서 축적된 실무 경험, 글로벌 리서치 조직의 지속적인 시장·기술 분석, 그리고 CEO의 기술적·전략적 검토를 거쳐 완성되었습니다.

This article is also available in English.

Continue the Conversation

본 아티클에서 제시한 접근 방식을 실제 생성형 AI 전환에 적용해보고 싶다면,
메이크봇과 논의해보세요.

AI 전환 상담 신청하기

Latest stories

More Stories

Makebot Insight Center

기술 도입을 넘어, 기업의 경쟁력을 재정의하는 메이크봇만의 독보적인 데이터와 통찰을 만나보세요.

[최신백서]

흩어진 AI에서 하나의 코어로: 통합 인텔리전스 코어로 완성하는 CX·EX 혁신

AI전략 백서 시리즈 전체보기