2026년 2월 24일 화요일

AI, 의료 데이터 분석에서 인간 연구팀을 능가하다

 AI가 수백만 개의 일자리를 대체할 것이라고 생각하든, 아니면 당신의 의견에 동의하도록 설계된 과장된 구글 검색 결과라고 생각하든, 한 가지는 확실합니다. 복잡한 의료 데이터를 분석하는 일을 하는 사람들은 이 소식에 주목해야 할 것입니다..


수년간 생의학 연구는 방대한 데이터와 이를 처리하는 데 필요한 인력 부족, 또는 단순히 처리하는 데 몇 달씩 걸리는 작업이라는 문제에 직면해 왔습니다. 현대 건강 연구는 유전자 발현, DNA 메틸화, 미생물군 프로필 등 엄청난 양의 분자 정보를 생성합니다. 이러한 정보를 질병 위험이나 임신 결과에 대한 유용한 예측으로 전환하려면 일반적으로 데이터 과학자 팀, 수개월에 걸친 코딩 작업, 그리고 끝없는 디버깅( debugging)이 필요합니다.

**( debugging); 컴퓨터 하드웨어 또는 소프트웨어의 오류를 식별하고 제거하는 과정**

하지만 Cell Reports Medicine에 발표된 새로운 연구에 따르면, 일부 AI 시스템은 이러한 작업의 상당 부분을 단 몇 분 만에 수행할 수 있으며, 적어도 한 가지 사례에서는 인간보다 더 나은 결과를 보여주었습니다.

실험: AI vs. 크라우드소싱(The Test: AI vs. the Crowd)

샌프란시스코 캘리포니아 대학교와 웨인 주립대학교의 연구진은 ChatGPT와 같은 시스템에 사용되는 것과 동일한 유형의 AI인 8개의 대규모 언어 모델을 활용하여 실제 생의학 분야의 예측 모델 경진대회를 진행했습니다. 연구팀은 이전 세 차례의 국제 DREAM Challenge에서 수집한 데이터를 사용했는데, 이 대회에서는 100개 이상의 연구팀이 다음과 같은 생식 건강 관련 질문에 대한 예측 모델을 개발했습니다.

혈액 유전자 발현으로 임신 주수를 예측할 수 있을까요?

DNA 메틸화로 태반의 생물학적 나이를 추정할 수 있을까요?

질 미생물군 데이터로 조산 위험을 예측할 수 있을까요?

즉, 이 실험은 파이썬으로 모델링 코드를 생성하는 최신 AI와 인간이 직접 코딩한 예측 모델 간의 대결입니다. (물론 인간이 데이터를 수동으로 처리하는 것은 아닙니다.)

한 데이터셋(dataset)에는 약 36만 개의 분자 특징이 포함되어 있었고, 다른 데이터셋에서는 공개 저장소에서 유전체 데이터를 추출해야 했습니다. 기존 대회에서는 인간 연구팀이 모델 개발 및 튜닝에 최대 3개월을 소요했습니다.

AI 시스템에는 데이터셋과 작업을 자세히 설명하는 프롬프트가 제공되었습니다. 그런 다음 시스템은 처음부터 실행 가능한 R 또는 Python 코드를 생성해야 했습니다. 연구원들은 해당 코드를 실행하고 생성된 모델이 이전에 보지 못한 테스트 데이터에서 얼마나 잘 작동하는지 측정했습니다.

특별한 힌트도, 반복적인 코칭도 없었습니다. 단 한 번의 시도였습니다.

결과: 더 빠르고, 때로는 더 나은 성능

8개의 AI 시스템 중 4개가 성공적으로 작동 가능한 코드와 유용한 예측 모델을 생성했습니다.

그중 하나인 OpenAI의 o3-mini-high는 거의 모든 작업을 완료하고 전반적으로 가장 높은 점수를 받았습니다.

하지만 연구진조차 놀랐던 부분은 바로 이것입니다. 태반 노화 과제에서 인공지능 모델 하나가 원래 과제에서 최고 성적을 냈던 인간 팀을 능가했습니다. 그 차이는 통계적으로 유의미했습니다.

다시 말해, AI는 최고의 인간 경쟁자들보다 더 정확한 태반 임신 주수 예측 모델을 구축했습니다.

게다가 코드를 생성하는 데 몇 초에서 몇 분밖에 걸리지 않았습니다.

반면, 인간 팀은 접근 방식을 다듬는 데 몇 달이라는 시간을 가졌습니다. 어떤 팀은 복잡한 다단계 랜덤 포레스트 시스템을 구축하고 추가적인 임상 정보를 활용하기도 했습니다. 그럼에도 불구하고, 비교적 간단한 릿지 회귀 모델을 사용한 AI가 승리했습니다.

다른 작업에서는 AI 모델이 일반적으로 인간 참가자들의 중간 성능과 비슷한 수준을 보였습니다. 즉, 최고 전문가들을 항상 능가하지는 못했지만, 충분히 경쟁력 있는 성능을 보여준 것입니다.

왜 이것이 중요할까요?

조산은 전 세계 신생아의 약 11%에 영향을 미치며 신생아 사망의 주요 원인으로 남아 있습니다. 임상의들은 여전히 ​​많은 임신 합병증에 대한 신뢰할 만한 예측 도구가 부족합니다.

더 나은 모델은 위험 임신을 조기에 식별하고, 개입 시기를 더욱 정확하게 조절하며, 아이들의 장기적인 합병증을 줄이는 데 도움이 될 수 있습니다. 하지만 이러한 모델을 구축하는 데는 많은 시간과 노력이 필요합니다. 광범위한 코드 작성, 디버깅, 분석 파이프라인 표준화 작업이 요구되기 때문입니다.

바로 이 부분에서 LLM(Learning Leadership Model)이 탁월한 성능을 발휘합니다. LLM은 데이터 로딩, 훈련 및 테스트 세트의 적절한 분할, 모델 학습, 성능 지표 계산, 심지어 그래프 생성까지 구조화되고 재현 가능한 워크플로우를 생성하는 데 특히 강점을 보입니다. 주목할 만한 점은 성공적인 AI 시스템 중 어느 것도 테스트 데이터를 훈련 세트에 실수로 "유출"시키지 않았다는 것입니다. 이는 결과를 과대평가하게 만드는, 의외로 흔한 인간의 실수입니다.

하지만 AI는 아직 초기 단계에 있으며, 모든 것이 순조로웠던 것은 아닙니다. 실제로 테스트된 모델의 절반은 완전히 실패했는데, 이는 존재하지 않는 패키지를 참조하거나 데이터 형식을 잘못 처리하는 등 기본적인 코딩 문제 때문인 경우가 많았습니다. 이러한 환경에서는 R 코드가 Python 코드보다 더 안정적인 것으로 나타났습니다.

최고의 모델조차도 확률적이었습니다. 동일한 명령어를 여러 번 실행하면 모델링 전략이나 결과가 약간씩 달라질 수 있었습니다.

더 심각한 문제가 있습니다. 많은 연구자들이 유사한 AI 시스템에 의존하게 되면, 비슷한 모델링 접근 방식으로 수렴할 수 있습니다. 이러한 표준화는 재현성을 향상시킬 수 있지만, 방법론적 창의성을 저해할 수도 있습니다.

이 기술은 어디로 향하고 있을까요?

대규모 언어 모델은 이미 의료 기록 판독, 방사선 보고서 생성, 병리 분석 지원 등에서 가능성을 보여주고 있습니다. 여기서 주목할 점은 이러한 모델들이 언어 처리 작업을 넘어 실제 코드를 작성하는 등 데이터 과학 실무 영역으로 나아가고 있다는 것입니다.

저자들은 인간의 감독이 여전히 중요하다고 강조합니다. AI 모델은 환각에 빠지거나, 지시를 잘못 이해하거나, 조용히 오류를 범할 수 있습니다. 또한, 고급 API 기반 시스템은 특히 임상 환경에서 비용 및 개인정보 보호 문제를 야기합니다.

핵심은 바로 이것입니다. 1년, 3년, 5년 후의 AI는 오류가 없고, 환각도 없으며, 일반적으로 신뢰할 수 있는 존재로 여겨질 수 있을까요?

댓글 없음:

댓글 쓰기