
최근 《네이처 메디신(Nature Medicine)》에 발표된 연구에 따르면, AI 챗봇은 단순한 질병 진단 능력을 넘어 의사의 임상 판단력—즉, 진단 이후의 복잡한 의사결정을 향상시키는 데에도 긍정적인 영향을 미치는 것으로 나타났습니다.
이번 종합 연구는 기존 의료 현장에서의 AI 활용에 대한 고정관념에 도전하며, 의료 전문가와 인공지능이 협업해 환자 치료 결과를 향상시킬 수 있는 미래를 제시합니다.
의료 분야에서의 자연어 처리 활용 사례. 여기에서 더 읽어보세요!

주요 연구 결과 요약
스탠퍼드 의대의 조너선 첸 박사 연구팀은 임상 관리 과제에 대해 세 그룹을 비교 분석했습니다.
- AI 챗봇 단독 사용
- 챗봇의 도움을 받는 의사
- 기존 자료(인터넷 검색, 의학 서적)만 사용하는 의사
그 결과, 챗봇의 도움을 받은 의사 그룹이 기존 자료만 사용한 그룹보다 훨씬 뛰어난 성과를 보였습니다. 특히, AI 챗봇 단독 사용이 의사 단독보다 더 나은 성과를 냈으며, 챗봇과 협업한 의사는 챗봇 단독 사용과 비슷한 수준의 결과를 보였습니다.
이 연구에는 미국 전역의 다양한 기관 소속 의사 92명이 참여했으며, 챗봇 보조 그룹과 기존 자료 그룹 각각 46명으로 구성되었습니다. 전문의들이 개발한 임상 평가 기준에 따라 채점한 결과, 챗봇 보조 그룹이 유의미하게 높은 점수를 획득했습니다.
단순 진단을 넘어선 임상 판단력
이전 연구들은 AI 챗봇의 진단 능력에 주로 초점을 맞췄다면, 이번 연구는 진단 이후 ‘무엇을 할 것인가’에 대한 결정—즉 임상 관리 판단력에 집중했습니다.
공동 연구 책임자인 이선 고(Ethan Goh) 박사는 이를 "목적지를 찾은 후 최적의 경로를 결정하는 과정” 에 비유합니다.
예를 들어, 환자의 폐 상부에서 종양이 발견되었을 때, 즉시 조직검사를 할지, 추후 절차를 예약할지, 추가 영상을 촬영할지 결정해야 합니다.
이 선택은 단순한 임상 정보 외에도 아래와 같은 여러 요소를 함께 고려해야 합니다.
- 침습적 절차에 대한 환자의 선호
- 과거의 내원 이력과 추적 검사 이행 여부
- 의료 시스템의 의뢰 절차 신뢰성
- 위험도 및 자원 배분 고려
- 치료의 부작용 가능성
- 환자의 사회적·경제적 여건
원격 의료 제공을 발전시키는 생성형 AI의 변혁적 영향. 여기에서 더 읽어보세요!
방법론: 엄격한 접근
이 연구는 세 그룹 간의 임상 관리 추론을 테스트하기 위해 다섯 가지 신원이 제거된 환자 사례를 활용했습니다. 참가자들은 다음을 상세히 기술한 서면 응답을 제공했습니다:
- 각 사례에서 어떻게 할 것인지
- 왜 그 접근법을 선택했는지
- 의사결정 시 어떤 요소들을 고려했는지 이러한 응답들은 적절한 의학적 판단을 구성하는 것을 규정한 전문의 인증을 받은 의사들이 만든 평가 기준에 따라 평가되었습니다. 이 표준화된 접근법은 그룹 간의 객관적인 비교를 가능하게 했습니다.
챗봇 지원을 받는 의사들은 기존 자원을 사용하는 의사들보다 사례당 약 2분 더 많은 시간(519초 대 565초)을 소비하여 더 철저한 분석을 수행했습니다. 이러한 추가 시간 투자는 치료 결정에서 경미에서 중등도의 위해 위험을 낮추는 데 기여했습니다(73.7% 대 76.3%), 비록 심각한 위해 등급은 그룹 간에 유사하게 유지되었습니다.

AI의 진화: 진단에서 치료 판단까지
이번 연구는 2024년 11월 《JAMA Network Open》에 발표된 연구를 기반으로 합니다. 당시 연구에서는 AI 챗봇이 의사보다 더 높은 진단 정확도를 보인 바 있습니다.
버지니아대 의과대학 연구에 따르면 챗봇의 진단 정확도 중앙값은 92% 이상으로, 인간 의사보다 뛰어났습니다.
이번 연구에서는 GPT-4를 기반으로 한 대형 언어 모델을 사용했으며, 임상 의사결정의 여러 단계를 논리적으로 따라가는 능력을 보여주었습니다.
JAMA Internal Medicine에 발표된 베스 이스라엘 디코니스 의료 센터의 이전 연구에 따르면, ChatGPT-4는 임상 추론 평가에서 전문의와 레지던트 모두를 능가하여, 전문의의 9/10, 레지던트의 8/10에 비해 중앙값 10/10을 달성했습니다. 그러나, 해당 연구는 또한 챗봇이 더 많은 부정확한 추론 사례를 보였다고 지적하며 인간의 감독 필요성을 강조했습니다.
검색-증강 생성(RAG)이 의료 AI 이니셔티브를 어떻게 지원하는가. 여기에서 더 읽어보세요!
품질과 공감의 ‘의외의 강점’
2023년 《JAMA Internal Medicine》에 발표된 또 다른 연구에 따르면, 환자 질문에 대한 AI 챗봇의 응답이 의사의 응답보다 품질과 공감 측면에서 더 높게 평가되었습니다.
의료 전문가들의 평가 결과:
- 응답의 78.6%에서 챗봇의 답변이 더 선호됨
- 정보의 ‘좋음’ 또는 ‘매우 좋음’ 평가 횟수가 의사보다 3.6배 많았음
- ‘공감적’ 또는 ‘매우 공감적’ 평가 비율이 의사보다 9.8배 많았음
이는 임상적 정확성뿐 아니라 환자 경험 개선 측면에서도 챗봇이 긍정적인 역할을 할 수 있음을 보여줍니다.
의료 현장에서 AI 챗봇이 가져올 변화
연구 결과는 다음과 같은 가능성을 제시합니다.
- 의사결정 품질 향상: 챗봇과 협업한 의사들은 더 많은 요인을 고려한 통합적 판단을 내렸습니다.
- 인지 부담 감소: 복잡한 의료 정보를 정리해주고 빠뜨릴 수 있는 요소를 상기시켜 줍니다.
- 환자 안전 향상: AI 도움을 받을 경우 경미한 위해 가능성이 더 맞았습니다.
- 시간 효율성: 사례당 소요 시간은 조금 더 길지만, 품질 향상으로 재진이나 부작용 감소에 기여할 수 있습니다.
- 진료 표준화: AI 도구는 의료인 간 치료 편차를 줄이는 데 도움을 줄 수 있습니다.
조너선 첸 박사는 말합니다.
“이 연구가 ‘이제 환자들은 의사 말고 챗봇에게 진료받으면 된다’는 걸 의미하진 않습니다. 절대 아닙니다. 좋은 정보도 많지만, 잘못된 정보도 존재합니다. 우리가 배워야 할 가장 중요한 능력은 ‘믿을 만한 정보인지 판단하는 힘’입니다. 지금은 그 어느 때보다 그것이 중요합니다.”
AI와 의료의 만남: 아시아-태평양 지역이 메드테크 혁신의 다음 시대를 어떻게 선도하고 있는가. 여기에서 더 읽어보세요!
과제와 한계점
긍정적인 결과에도 불구하고, 의료 현장에 AI를 도입하기 위해 해결해야 할 과제는 여전히 존재합니다:
- 사용자 교육 필요: 의료진이 LLM을 효과적으로 활용하려면 별도의 교육이 필요합니다.
- 프롬프트 설계: 어떤 질문을 어떻게 입력하느냐에 따라 결과가 달라질 수 있으므로, 병원 차원의 표준화 전략이 필요합니다.
- 업무 흐름 통합: AI 도구가 진료 흐름을 방해하거나 행정 부담을 늘려서는 안 됩니다.
- 신뢰 균형: 의료진은 AI를 맹신하지도, 완전히 무시하지도 않고 적절히 활용할 수 있어야 합니다.
- 윤리 문제: 책임, 법적 의무, 환자의 동의 여부 등에 대한 논의가 필요합니다.
- 데이터 보안: LLM을 사용하는 과정에서도 환자 정보 보호는 절대적인 조건입니다.
이 연구는 의사-챗봇 팀이 왜 더 나은 성과를 냈는지—AI 챗봇이 새로운 통찰력을 제공했는지 또는 단순히 더 체계적인 사고를 장려 했는지는 명확하지 않습니다.
베스 이스라엘 디코니스 의료 센터의 연구원인 Stephanie Cabral 박사는 "AI가 감독을 방지하기 위한 유용한 검사점 역할을 할 수 있다"고 제안했지만, 최적의 구현 전략에 대한 더 많은 연구가 필요합니다.
활발히 이어지는 후속 연구들
스탠퍼드 의대, 하버드대, 미네소타대, 버지니아대 등은 AI가 환자 치료에 어떻게 실질적인 기여를 할 수 있을지 꾸준히 연구 중입니다.
이들은 ARiSE (AI Research and Science Evaluation)라는 미국 양해안 AI 평가 네트워크를 통해 의료 AI의 정확한 검증과 실용화 가능성을 탐색하고 있습니다.
베스 이스라엘 디코니스 메디컬센터 AI 프로그램 책임자 아담 로드먼 박사에 따르면, 현재 다음과 같은 후속 연구가 진행 중입니다:
- 다양한 유형의 AI 챗봇, 인터페이스, 의사 교육 방식 비교
- 실제 환자 데이터를 기반으로 LLM의 임상 적용 가능성 테스트
이러한 연구는 HIPAA(미국 보건 정보 보호법)을 준수하는 안전한 AI 모델을 대상으로 하며, 연구 결과를 실제 의료 환경에 접목시키기 위한 중요한 단계로 평가받고 있습니다.
따라서,
임상 실습에 AI 챗봇을 통합하는 것은 의료 의사결정을 향상시키기 위한 유망한 길을 나타냅니다. 의사의 판단을 대체하기보다는, 이러한 도구들은 인간의 전문성을 보완하여 환자 관리의 품질과 안전성을 모두 잠재적으로 개선하는 것으로 보입니다.
Chen 박사가 제안하듯이, 이 연구는 우리에게 "컴퓨터가 잘하는 것, 인간이 잘하는 것"과 이러한 능력들이 환자에게 이익이 되도록 최적으로 결합될 수 있는 방법을 재고하도록 도전합니다.
인간과 의학 분야의 AI의 상호 보완적인 강점은 경쟁이 아닌 협력이 의료 혁신을 이끄는 미래를 시사합니다. 의사들은 맥락적 이해, 공감, 임상 경험을 가져오고, 대규모 언어 모델은 빠른 정보 처리, 패턴 인식, 표준화에 기여합니다.
의료 시스템이 계속해서 증가하는 요구에 직면함에 따라, 전자 환자 메시지는 1.6배 증가하여 의사의 소진과 스트레스에 기여하고 있습니다. 의료 분야의 AI 보조자의 사려 깊은 통합은 의사를 지원하고, 행정적 부담을 줄이며, 궁극적으로 환자 경험을 향상시키는 데 가치가 있을 수 있습니다.
우리는 여전히 이러한 기술을 가장 잘 구현하는 방법을 이해하는 초기 단계에 있지만, 증거는 점점 더 의학 분야의 AI의 미래가 인간 임상의의 AI 대체가 아닌 인간-AI 파트너십을 포함할 것임을 시사합니다.
의료 실무를 AI로 향상시킬 준비가 되셨나요?
메이크봇의 의료 최적화 LLM 솔루션은 의료팀이 더 나은 임상 결정을 내리는 데 도움을 줄 수 있습니다. 당사의 특화된 MakeH 시스템은 이미 90%의 예약 효율성으로 주요 병원의 환자 케어를 혁신하고 있습니다. 😊 또한, 병원 내 문서 검색 시스템과 RAG 기반 데이터 검색 솔루션을 통해 의료진이 필요한 정보를 신속하고 정확하게 확보할 수 있도록 지원할 뿐만 아니라, 병원 내 다양한 행정업무 영역에서도 AI 기반 자동화와 효율화를 이끌어내고 있습니다.
특히 메이크봇은 국내 LLM 및 챗봇 전문 기업 중 헬스케어 분야에서 가장 깊은 경험과 풍부한 레퍼런스를 보유하고 있으며, 국내 유수의 대형병원들이 메이크봇의 솔루션을 도입하여 실질적인 변화를 경험하고 있습니다.
오늘 b2b@makebot.ai로 연락하셔서 AI챗봇 전문 개발사 메이크봇의 AI 챗봇 기술이 기존 워크플로우와 어떻게 통합되어 의사 소진을 줄이면서 환자 결과를 개선할 수 있는지 알아보세요. ✨