
Nature Medicine에 최근 발표된 연구에 따르면 AI 챗봇은 진단 능력에서 발전할 뿐만 아니라 의사의 임상 관리 추론—진단 후 이루어지는 복잡한 의사결정—을 향상시키는 데 상당한 가능성을 보이고 있습니다.
이 포괄적인 연구는 의료 분야의 AI에 대한 전통적인 사고방식에 도전하며, 인간의 전문성과 인공지능이 환자 결과를 개선하기 위해 협력하는 미래를 제시합니다.
의료 분야에서의 자연어 처리 활용 사례. 여기에서 더 읽어보세요!

주요 발견
스탠포드 의대의 Jonathan H. Chen 박사와 동료들이 주도한 이 연구는 임상 관리 작업에서 세 개의 구별된 그룹의 성능을 평가했습니다:
- 자율적으로 작동하는 AI 챗봇
- 챗봇 지원을 받는 의사
- 기존 자원(인터넷 검색 및 의학 참고자료)만 사용하는 의사
결과는 챗봇 지원을 받는 의사들이 기존 자원에만 의존하는 의사들보다 상당히 더 나은 성과를 보였음을 나타냈습니다. 주목할 만하게, 자율적인 AI 챗봇은 AI 지원이 없는 의사들에 비해 우수한 성능을 보였지만, 챗봇과 파트너십을 맺은 의사들은 AI가 단독으로 작업할 때와 비슷한 결과를 달성했습니다.
이 연구에는 미국 내 여러 지역과 기관에서 92명의 의사가 참여했으며, 46명의 의사는 챗봇 지원 그룹에, 46명은 기존 자원 그룹에 배정되었습니다. 전문의 인증을 받은 의사들이 개발한 임상 관리 평가 기준에 따라 점수를 매겼을 때, 챗봇 지원 그룹이 현저히 높은 점수를 획득했습니다.
임상 관리 추론: 진단을 넘어서
이전 연구들이 질병 진단에 있어 AI 챗봇의 능력을 강조했다면, 이 연구는 의학 분야의 AI의 더 미묘한 측면을 파고듭니다. 연구 공동 주저자인 Ethan Goh 박사의 설명에 따르면, 임상 관리 추론은 진단 후 최적의 치료 경로를 결정하는 것을 포함합니다—지도에서 목적지를 식별한 후 최적의 경로를 선택하는 것과 유사합니다.
예를 들어, 의사가 환자의 상부 폐에서 상당한 크기의 종괴를 발견했을 때, 그들은 여러 가능한 관리 접근법에 직면합니다: 즉각적인 생검, 나중을 위한 절차 예약, 또는 추가 영상 검사 주문. 최적의 결정은 임상 발표만으로는 알 수 없는 수많은 요소에 따라 달라집니다. 이 의사결정 과정에는 여러 요소를 고려해야 합니다:
- 침습적 절차에 관한 환자의 선호도
- 후속 예약에 대한 과거 준수 이력
- 의뢰를 조직하는 의료 시스템의 신뢰성
- 위험 평가 및 자원 할당 고려사항
- 중재의 잠재적 부작용
- 환자의 사회적, 경제적 상황 원격 의료 제공을 발전시키는 생성형 AI의 변혁적 영향. 여기에서 더 읽어보세요!
원격 의료 제공을 발전시키는 생성형 AI의 변혁적 영향. 여기에서 더 읽어보세요!
방법론: 엄격한 접근
이 연구는 세 그룹 간의 임상 관리 추론을 테스트하기 위해 다섯 가지 신원이 제거된 환자 사례를 활용했습니다. 참가자들은 다음을 상세히 기술한 서면 응답을 제공했습니다:
- 각 사례에서 어떻게 할 것인지
- 왜 그 접근법을 선택했는지
- 의사결정 시 어떤 요소들을 고려했는지 이러한 응답들은 적절한 의학적 판단을 구성하는 것을 규정한 전문의 인증을 받은 의사들이 만든 평가 기준에 따라 평가되었습니다. 이 표준화된 접근법은 그룹 간의 객관적인 비교를 가능하게 했습니다.
챗봇 지원을 받는 의사들은 기존 자원을 사용하는 의사들보다 사례당 약 2분 더 많은 시간(519초 대 565초)을 소비하여 더 철저한 분석을 수행했습니다. 이러한 추가 시간 투자는 치료 결정에서 경미에서 중등도의 위해 위험을 낮추는 데 기여했습니다(73.7% 대 76.3%), 비록 심각한 위해 등급은 그룹 간에 유사하게 유지되었습니다.

의학 분야의 AI 진화
이 연구는 2024년 11월 JAMA Network Open에 발표된 초기 연구를 기반으로 하며, 해당 연구에서는 AI 챗봇이 질병 진단에서 의사보다 더 높은 정확도를 보여준다는 것을 입증했습니다.
버지니아 대학교 의료 시스템 연구에 따르면, 챗봇은 92%를 초과하는 중앙값 진단 정확도를 보여 도움을 받지 않는 의사들보다 더 우수한 성능을 나타냈습니다.
진단에서 관리 능력으로의 발전은 의료 분야의 AI 응용에 있어 중요한 진전을 나타냅니다. 현재 연구는 임상 의사결정의 여러 단계에서 주목할 만한 추론 능력을 보여주는 대규모 언어 모델(LLM)인 GPT-4를 사용했습니다.
JAMA Internal Medicine에 발표된 베스 이스라엘 디코니스 의료 센터의 이전 연구에 따르면, ChatGPT-4는 임상 추론 평가에서 전문의와 레지던트 모두를 능가하여, 전문의의 9/10, 레지던트의 8/10에 비해 중앙값 10/10을 달성했습니다. 그러나, 해당 연구는 또한 챗봇이 더 많은 부정확한 추론 사례를 보였다고 지적하며 인간의 감독 필요성을 강조했습니다.
검색-증강 생성(RAG)이 의료 AI 이니셔티브를 어떻게 지원하는가. 여기에서 더 읽어보세요!
품질과 공감: 예상치 못한 이점
2023년 JAMA Internal Medicine에 발표된 별도의 연구에 따르면, 환자 질문에 대한 AI 챗봇 응답은 의사의 응답에 비해 품질과 공감 모두에서 현저히 높은 평가를 받았습니다. 의료 전문가들의 평가에 따르면:
- AI 챗봇 응답은 평가의 78.6%에서 의사 응답보다 선호되었습니다
- 챗봇의 정보 품질은 의사에 비해 3.6배 더 자주 "좋음" 또는 "매우 좋음"으로 평가되었습니다
- AI 챗봇 응답은 의사 응답보다 9.8배 더 자주 "공감적" 또는 "매우 공감적"으로 평가되었습니다
이러한 발견은 임상 정확성을 넘어서, AI 챗봇이 더 철저하고 공감적인 소통을 통해 환자 경험을 향상시킬 수 있음을 시사합니다—이는 의료 서비스 제공의 중요한 측면입니다.
의료 실무에서의 AI 함의
연구 결과는 임상 워크플로우에 AI 챗봇을 통합하는 것의 몇 가지 잠재적 이점을 제시합니다:
- 향상된 결정 품질: AI 지원을 받는 의사들은 환자 사례에 대해 더 포괄적인 평가를 보여주며, 의사결정에서 더 많은 요소를 고려합니다
- 인지 부하 감소: AI 챗봇은 의사들이 복잡한 의료 정보를 정리하고 그들이 간과할 수 있는 고려사항들을 상기시키는 데 도움을 줄 수 있습니다
- 향상된 안전성: AI 지원으로 내려진 결정에서의 잠재적 위해 비율 감소는 환자 결과가 개선될 수 있음을 시사합니다
- 시간 효율성: 챗봇을 사용하는 의사들은 사례당 약간 더 많은 시간을 소비했지만, 향상된 결정 품질은 합병증과 후속 방문을 줄일 수 있습니다
- 치료의 표준화: 의학 분야의 AI 도구는 다양한 제공자와 환경 전반에 걸쳐 치료 접근법의 변동성을 줄이는 데 도움을 줄 수 있습니다
Jonathan Chen 박사는 이러한 유망한 결과에도 불구하고 "이것이 환자들이 의사를 건너뛰고 바로 챗봇에게 가야 한다는 것을 의미하지는 않습니다. 그렇게 하지 마세요. 좋은 정보가 많이 있지만, 나쁜 정보도 있습니다. 우리 모두가 발전시켜야 할 기술은 무엇이 신뢰할 만하고 무엇이 옳지 않은지 분별하는 것입니다. 이것은 그 어느 때보다 지금 더 중요합니다."라고 강조합니다.
AI와 의료의 만남: 아시아-태평양 지역이 메드테크 혁신의 다음 시대를 어떻게 선도하고 있는가. 여기에서 더 읽어보세요!
도전과 한계
긍정적인 결과에도 불구하고, 의료 분야의 AI의 광범위한 임상 구현 전에 몇 가지 도전과제가 남아 있습니다:
- 교육 필요성: 의사들은 의사결정 지원 도구로서 대규모 언어 모델을 효과적으로 사용하기 위해 특정 교육을 필요로 할 가능성이 있습니다
- 프롬프트 설계: 연구에 따르면 프롬프트 엔지니어링이 결과에 상당한 영향을 미치는 것으로 나타나, 의료 기관이 표준화된 프롬프팅 전략을 개발해야 할 필요성을 시사합니다
- 워크플로우 통합: 의학 분야의 AI 도구의 추가는 임상 워크플로우를 방해하거나 행정적 부담을 더해서는 안 됩니다
- 신뢰 조정: 임상의들은 AI 권장사항에 대한 적절한 수준의 신뢰를 개발해야 합니다—과도하게 의존하거나 무시하지 않는
- 윤리적 고려사항: 책임, 법적 책임, 사전 동의에 관한 질문은 여전히 해결되지 않았습니다
- 데이터 개인정보 보호: LLM 시스템 사용 시 환자 정보가 보호되도록 보장하는 것이 가장 중요합니다
이 연구는 의사-챗봇 팀이 왜 더 나은 성과를 냈는지—AI 챗봇이 새로운 통찰력을 제공했는지 또는 단순히 더 체계적인 사고를 장려 했는지는 명확하지 않습니다.
베스 이스라엘 디코니스 의료 센터의 연구원인 Stephanie Cabral 박사는 "AI가 감독을 방지하기 위한 유용한 검사점 역할을 할 수 있다"고 제안했지만, 최적의 구현 전략에 대한 더 많은 연구가 필요합니다.
진행 중인 연구 이니셔티브
스탠포드 의대, 하버드 대학교, 미네소타 대학교, 버지니아 대학교를 포함한 연구 기관들은 의학 분야의 AI가 어떻게 환자 관리를 가장 잘 향상시킬 수 있는지 계속해서 탐구하고 있습니다.
ARiSE(AI 연구 및 과학 평가)라고 불리는 양안 AI 평가 네트워크의 설립은 의료 분야의 AI 응용 프로그램을 엄격하게 검증하는 데 대한 증가하는 관심을 보여줍니다.
베스 이스라엘 디코니스 의료 센터의 AI 프로그램 디렉터인 Adam Rodman 박사에 따르면, 후속 연구가 이미 진행 중이며, 다음 두 가지 후속 단계로 이동하고 있습니다:
- 성능을 최적화하기 위해 다양한 유형의 AI 챗봇, 사용자 인터페이스, 의사 교육 접근법 조사
- 실제 효과를 평가하기 위해 보관된 사례가 아닌 실시간 환자 데이터로 LLM 시스템 테스트
이러한 연구에는 HIPAA를 준수하는 안전한 대규모 언어 모델이 포함되어 실제 임상 환경에 적합하며, 연구 결과를 실제 구현에 더 가깝게 가져옵니다.
따라서,
임상 실습에 AI 챗봇을 통합하는 것은 의료 의사결정을 향상시키기 위한 유망한 길을 나타냅니다. 의사의 판단을 대체하기보다는, 이러한 도구들은 인간의 전문성을 보완하여 환자 관리의 품질과 안전성을 모두 잠재적으로 개선하는 것으로 보입니다.
Chen 박사가 제안하듯이, 이 연구는 우리에게 "컴퓨터가 잘하는 것, 인간이 잘하는 것"과 이러한 능력들이 환자에게 이익이 되도록 최적으로 결합될 수 있는 방법을 재고하도록 도전합니다.
인간과 의학 분야의 AI의 상호 보완적인 강점은 경쟁이 아닌 협력이 의료 혁신을 이끄는 미래를 시사합니다. 의사들은 맥락적 이해, 공감, 임상 경험을 가져오고, 대규모 언어 모델은 빠른 정보 처리, 패턴 인식, 표준화에 기여합니다.
의료 시스템이 계속해서 증가하는 요구에 직면함에 따라, 전자 환자 메시지는 1.6배 증가하여 의사의 소진과 스트레스에 기여하고 있습니다. 의료 분야의 AI 보조자의 사려 깊은 통합은 의사를 지원하고, 행정적 부담을 줄이며, 궁극적으로 환자 경험을 향상시키는 데 가치가 있을 수 있습니다.
우리는 여전히 이러한 기술을 가장 잘 구현하는 방법을 이해하는 초기 단계에 있지만, 증거는 점점 더 의학 분야의 AI의 미래가 인간 임상의의 AI 대체가 아닌 인간-AI 파트너십을 포함할 것임을 시사합니다.
의료 실무를 AI로 향상시킬 준비가 되셨나요?
메이크봇의 의료 최적화 LLM 솔루션은 의료팀이 더 나은 임상 결정을 내리는 데 도움을 줄 수 있습니다. 당사의 특화된 MakeH 시스템은 이미 90%의 예약 효율성으로 주요 병원의 환자 케어를 혁신하고 있습니다. 😊 또한, 병원 내 문서 검색 시스템과 RAG 기반 데이터 검색 솔루션을 통해 의료진이 필요한 정보를 신속하고 정확하게 확보할 수 있도록 지원할 뿐만 아니라, 병원 내 다양한 행정업무 영역에서도 AI 기반 자동화와 효율화를 이끌어내고 있습니다.
특히 메이크봇은 국내 LLM 및 챗봇 전문 기업 중 헬스케어 분야에서 가장 깊은 경험과 풍부한 레퍼런스를 보유하고 있으며, 국내 유수의 대형병원들이 메이크봇의 솔루션을 도입하여 실질적인 변화를 경험하고 있습니다.
오늘 b2b@makebot.ai로 연락하셔서 AI챗봇 전문 개발사 메이크봇의 AI 챗봇 기술이 기존 워크플로우와 어떻게 통합되어 의사 소진을 줄이면서 환자 결과를 개선할 수 있는지 알아보세요. ✨