Future of AI
9.27.2024

2024년 의료 분야의 LLM: 의사를 대체하지 않고 보완하다

의료 분야의 LLM 2024: 의사를 교체하는 것이 아니라 지원합니다. 방법을 알아보세요.

Luke
Technical Market Researcher

안녕하세요. 메이크봇입니다. 최근 의료 분야에서 AI의 역할이 부각되고 있습니다. 이에 따라 오늘은 AI가 과연 의사를 대체할 수 있을지, 아니면 의료 전문가의 능력을 향상시키는 도구로 사용될지에 대해 알아보겠습니다. 🩺🤖

2024년 현재, 인공지능(AI), 특히 대규모 언어 모델(LLM)의 의료 분야 활용이 확대되면서 전통적인 의료 관행의 경계가 도전받고 있습니다. 하지만 이러한 AI 시스템이 독립적으로 기능할 준비가 되었을까요? 아니면 인간 의사의 중요한 의사결정을 지원하는 데 가장 적합할까요?

이 글에서는 최신 연구를 바탕으로 AI가 의료를 어떻게 재형성하고 있는지 살펴보고, AI의 강점과 한계, 그리고 인간 의사를 대체하기보다는 협력할 수 있는 잠재력을 조명해보겠습니다.

AI, 임상 시험에서 인간을 능가하다

Sallam 등(2024)이 Advances in Medical Education and Practice에 발표한 비교 연구에서, ChatGPT-4는 Bing(GPT-4 Turbo), ChatGPT-3.5, Bard와 같은 다른 AI 모델들과 함께 대학원생들과 임상 화학 시험에서 경쟁했습니다.

  • ChatGPT-4는 90%의 정확도(60문제 중 54개 정답)를 달성하여 평균 66.75%를 기록한 학생들을 능가했습니다.
  • Bing은 77%(46/60), ChatGPT-3.5는 73%(44/60), Bard는 67%(40/60)를 기록했으며, 이는 인간의 평균과 비슷한 수준이었습니다.
  • ChatGPT-4는 낮은 인지 질문(기억 및 이해 범주)의 98%를 정확히 답변했지만, 고차원 질문(적용 및 분석)에서는 정확도가 72%로 떨어졌습니다.
  • 인간도 비슷한 경향을 보여, 쉬운 질문에서는 85%의 평균 성능을 보였지만 복잡한 과제에서는 어려움을 겪어 58%의 점수를 기록했습니다.

이 데이터는 ChatGPT-4가 지식 회상에 뛰어나다는 것을 보여주지만, 동시에 복잡한 질문에 필요한 깊은 추론에는 어려움을 겪는다는 것을 강조합니다. 이는 일부 영역에서 인간의 성능과 유사한 패턴을 보입니다.

AI챗봇 전문 개발사 메이크봇은 이러한 LLM의 성능을 지속적으로 모니터링하고 있으며, 의료 분야에 특화된 AI 모델 개발에 주력하고 있습니다.

추가 정보 : Doctor AI: 의료 분야에서 생성 AI의 부상

AMIE, 진단 정확도에서 일차 진료 의사를 능가하다

Google DeepMind가 개발한 AMIE(Articulate Medical Intelligence Explorer)는 환자와 진단 대화를 할 수 있도록 설계된 LLM입니다. AMIE를 20명의 일차 진료 의사(PCP)와 149개의 임상 시나리오에서 비교한 연구에서, AMIE는 여러 의료 전문 분야에서 우수한 진단 정확도를 보여주었습니다.

  • AMIE의 상위 3개 진단 정확도는 87%로, PCP의 72%보다 15% 높았습니다.
  • 전문 분야별 결과:
    • 호흡기 의학: AMIE 92%, PCP 77%
    • 심혈관 의학: AMIE 89%, PCP 74%
  • 효율성 면에서 AMIE와 PCP는 상담 중 환자로부터 비슷한 양의 정보를 얻었습니다. AMIE는 평균 12회, PCP는 11회의 대화를 나눴으며, 환자로부터 얻은 단어 수는 AMIE가 430개, PCP가 425개로 거의 동일했습니다.

이러한 결과는 AMIE가 환자 진단에 있어 더 정확할 뿐만 아니라, 진단 정보 수집에 있어서도 동등한 효율성을 보여준다는 것을 보여줍니다. 이는 AMIE가 임상 환경에서 귀중한 도구가 될 수 있음을 시사합니다.

또한 읽어보세요: Chatgpt 생성 AI인가요? (최대한 활용하는 방법)

LLM과 인간의 소통: 비교

효과적인 의사소통과 환자와의 신뢰 구축 능력은 의료 서비스의 핵심 요소입니다. 같은 연구에서 AMIE는 진단 정확도뿐만 아니라 의사소통 능력과 환자 참여도에 대해서도 평가되었습니다.

  • 96%의 환자 배우들이 향후 상담을 위해 AMIE를 다시 찾겠다고 답했습니다(PCP의 경우 88%).
  • 94%의 환자들이 AMIE가 제공한 케어에 확신을 느꼈습니다(PCP의 경우 85%).
  • 환자 이해도: 94%의 환자들이 AMIE의 의학적 상태와 치료 계획 설명에 만족했습니다(PCP의 경우 85%).
  • 공손함과 환자 안정감: AMIE는 공손함과 환자를 편안하게 만드는 데 95%의 점수를 받았습니다(PCP의 경우 87%).

이러한 결과는 AMIE와 같은 LLM이 효과적인 의사소통을 통해 환자 만족도와 신뢰를 유지하는 데 있어 인간 의사와 대등하거나 잠재적으로 더 뛰어날 수 있음을 시사합니다.

메이크봇은 이러한 LLM의 의사소통 능력을 활용하여, 의료 현장에서 더욱 효과적인 환자-의사 소통을 지원하는 솔루션을 개발하고 있습니다. 🤝💬

의료 LLM 평가

Xie 등(2024)이 선전 연구소에서 실시한 대규모 연구에서는 의료 LLM을 두 가지 데이터셋을 사용하여 평가했습니다. 단일 턴 쿼리를 위한 DoctorFLAN과 다중 턴 대화를 위한 DotaBench입니다. 이 데이터셋들은 22개 작업에 걸친 91,330개의 의료 인스턴스와 74개의 다중 턴 대화를 포함하여 AI의 진단 능력을 종합적으로 평가했습니다.

  • DoctorFLAN: GPT-4는 진단, 치료, 약물 문의와 같은 작업에서 10점 만점에 평균 8.42점을 기록했습니다. 반면 HuatuoGPT와 DISC-MedLLM과 같은 의료 특화 모델은 각각 4.29점과 4.24점을 기록했습니다.
  • DotaBench: GPT-4는 다단계 추론 처리에 뛰어나 평균 9.41점을 기록한 반면, HuatuoGPT는 6.78점에 그쳤습니다.
  • 미세 조정 개선: DoctorFLAN 데이터셋으로 미세 조정된 DotaGPT(Baichuan2-7B-Base)는 성능이 25.2% 향상되어 8.25점을 달성했습니다.

미세 조정된 모델인 DotaGPT의 성공은 LLM이 도메인 특화 훈련을 통해 특히 다중 턴 상호작용이 필요한 복잡한 임상 작업에서 더 효과적으로 발전할 수 있는 잠재력을 보여줍니다.

AI챗봇 전문 개발사 메이크봇은 이러한 연구 결과를 바탕으로, 의료 분야에 특화된 LLM을 개발하고 있습니다. 도메인 특화 훈련을 통해 더욱 정확하고 효과적인 의료 AI 시스템을 구축하는 것이 메이크봇의 목표입니다.

진단 확률 추정

JAMA Network Open에 발표된 연구(Rodman 등, 2023)에서는 폐렴, 유방암, 심장 허혈 등 5가지 임상 사례에 대해 LLM과 인간 임상의의 진단 확률 추정을 비교했습니다.

  • 폐렴 사례: LLM의 사전 검사 확률 추정 중앙값은 72%(IQR, 69%-78%)였고, 임상의는 80%(IQR, 75%-90%)였습니다. LLM의 평균 절대 오차(MAE)는 39.5로, 임상의의 47.3보다 낮았습니다.
  • 유방암 사례: 음성 검사 결과 후, LLM은 검사 후 확률을 0.2%(IQR, 0.06%-0.3%)로 추정해 1%(IQR, 1%-10%)로 추정한 임상의보다 뛰어났습니다. LLM의 MAE는 0.2로, 임상의의 11.2보다 훨씬 낮았습니다.
  • 무증상 세균뇨: LLM의 사전 검사 확률 추정치는 26%(IQR, 20%-30%)였고, 인간 임상의는 20%(IQR, 10%-50%)로 추정했습니다.

대부분의 경우 LLM은 음성 검사 결과 후 확률 조정에서 인간 임상의보다 뛰어난 성능을 보여, 진단 정확도 향상에 유용할 수 있음을 시사했습니다. 그러나 양성 검사 결과 후에는 LLM의 성능이 덜 효과적이었으며, 이 경우 인간의 판단과 전문성이 여전히 우수함을 보여주었습니다.

앙상블 기법: AI와 인간의 한계를 극복하는 해결책

LLM과 의사 모두 진단 정확도에 있어 한계에 직면합니다. 특히 과신에 관한 문제가 있습니다. Xavier Amatriain(2023)은 이를 극복하기 위해 AI 모델과 인간 진료 모두에 앙상블 기법을 사용할 것을 제안했습니다.

  • 앙상블 기법: 여러 의사의 의견을 결합하면 진단 정확도가 개별 진단에서 일반적으로 보이는 55%-60% 범위에서 85%까지 증가할 수 있습니다. 마찬가지로 LLM에 여러 번 쿼리하거나 여러 모델을 사용하면 더 신뢰할 수 있는 진단 결과를 얻을 수 있습니다.
  • Nvidia의 Guardrails Toolkit: 이 AI 도구는 앙상블 기법을 사용하여 환각과 오류를 줄이고 AI 생성 응답의 정확도를 높입니다.

앙상블 기법은 인간 임상의나 AI 도구에 적용되든 여러 관점을 결합하여 더 신뢰할 수 있는 진단을 만들어내므로, 진단 정확도를 개선하는 유망한 해결책을 제시합니다.

AI챗봇 전문 개발사 메이크봇은 이러한 앙상블 기법을 활용하여 의료 AI 시스템의 정확도와 신뢰성을 높이는 연구를 진행 중입니다. 여러 AI 모델의 결과를 종합하여 더욱 정확한 진단을 제공하는 시스템 개발이 메이크봇의 주요 목표 중 하나입니다. 🎯🔬

Request a Consultation Now!

당신의 비즈니스를 위한 맞춤형 AI 솔루션, 메이크봇에서 시작하세요!

상담 신청하기

Latest stories

More Stories

2024 APAC Chatbot
Trend Report
by Makebot

아시아의 챗봇 산업 트렌드를 전망한다
메이크봇 챗봇 전문가들이 아시아 5개국(Asia Pacific)의 리서치를 통해 매년 발간하는
아시아 최초의 챗봇 트렌드 리포트

바로가기