저희 AITRICS에서는 딥러닝 모델을 기반으로 패혈증을 조기에 예측하는 의료기기 소프트웨어 VitalCare를 만들었습니다. VitalCare에 적용되는 인공지능 모델 개발의 단계는 크게 ‘데이터 확보-데이터 전처리 및 레이블 작업-모델 학습-모델 평가-임상시험을 통한 모델 성능 확인’ 5단계로 나누어 볼 수 있습니다.
먼저 첫 단계인 ‘데이터 확보’는 딥러닝 모델 개발에 있어 가장 필수적인 단계라고 말씀드릴 수 있습니다. 성능이 좋은 딥러닝 모델을 만들기 위해서는 최신 모델 구조들과 학습 알고리즘을 적용하는 것도 중요하게 작용할 수 있지만, 그보다도 우선적으로 양질의 데이터를 최대한 많이 확보하는 것이 가장 중요합니다. 이를 위해 AITRICS는 가장 대표적으로 사용되는 의료 오픈 데이터인 ‘MIMIC-III 데이터’와 MOU를 체결한 국내의 여러 상급 병원에서 확보한 입원 환자들의 데이터를 활용하고 있습니다. 이는 국내 병원의 데이터는 각 기관의 IRB(임상연구심의위원회)의 승인 및 익명화를 거쳤으며, 엄격한 데이터 보안 절차를 따르고 있습니다.
데이터 확보 이후에는 해당 데이터들을 모델 학습에 사용할 수 있도록 적절한 Feature를 찾아내기 위한 전처리 작업을 하고, 지도학습(Supervised Learning)을 위해 데이터의 명시적인 정답을 표기하는 레이블 작업을 진행합니다.
지도학습에서는 레이블을 어떻게 정의하느냐에 따라 결과가 달라질 수 있습니다. 대부분의 경우 데이터 자체에 레이블 정보가 포함되어 있어 해당 레이블을 그대로 사용하면 되지만, 그렇지 않은 경우에는 적절한 방법을 통해 직접 레이블을 작성해야 합니다. AITRICS가 사용한 데이터 역시 데이터 자체에는 패혈증 발생 시점이 기록되어 있는 데이터가 없었기 때문에, 주어진 데이터를 이용해 저희가 직접 패혈증 발생 시점을 추정하여 레이블을 작성했습니다. 이 때 사용한 방법은 임상현장에서 널리 사용되는 패혈증 진단 가이드 규칙입니다. 이는 크게 두 단계로 나누어지는데 먼저 환자의 ‘감염 의심 시점’을 찾고(1), 감염 의심 시점을 기준으로 특정 시간 간격 사이에 환자한테서 장기부전의 현상이 나타나는 시점(2)을 패혈증 발생시점으로 잡는 것 입니다.
- ‘감염 의심 시점’ 확인 방법
혈액배양 검사를 실시한 환자들 중, 검사 전후 이틀 사이(총 5일간)에 4일 이상 연속해서 항생제가 투여된 환자들의 혈액배양 검사 시기를 감염 의심 시점으로 정의합니다.
- 중환자실 환자의 장기부전 진단 방법
감염 의심 시점 이틀 전과 감염 후 하루 뒤 기간 사이에 환자의 SOFA점수가 2점 이상 변화되는 시점을 장기부전 현상이 발생한 시점으로 진단합니다. - 일반병동 환자의 장기부전 진단 방법
일반병동 환자들의 경우 하단 표의 6가지 규정들 (강심제 사용, 인공 호흡기 사용, 크레아틴 수치가 2배 이상 되거나 사구체 투과율이 기준치 대비 50%이상 감소, 빌리루빈 수치가 2.0 이상이거나 기준치 대비 2배 이상일 경우, 혈소판 수가 100 미만으로 떨어지거나 기준치 대비 50%이상 감소, 젖산염 수치가 2.0 이상이 되는 경우) 중 하나라도 해당이 되면, 해당되는 요소 중 발생 시기가 가장 빠른 시점을 패혈증 발생 시점으로 정의합니다.
데이터 전처리 및 레이블 작업까지 마친 뒤, 시계열(Time-series) 데이터를 다루는 대표적인 딥러닝 모델 ‘RNN (Recurrent Neural Network)’을 사용하여 패혈증 예측 모델을 디자인하고 만들어진 데이터들을 이용해서 모델 학습을 진행합니다. AITRICS가 패혈증 예측에 사용한 Feature들은 크게 두 가지 형태로 구분되어 있습니다.
- 시계열 데이터: 입원 환자들의 혈액검사 결과, 생체신호 결과
- 고정형 데이터: 환자들의 인구학적 기본정보(나이, 성별 등), 시계열 데이터의 가장 최근 시점의 데이터
입력 데이터를 이렇게 두 가지 형태로 만들어 사용한 것 처럼, 네트워크 역시 고정 데이터를 다루는 네트워크와 시계열 데이터를 다루는 네트워크, 두 가지로 구성했습니다. 각각의 네트워크를 통해 시계열 데이터와 고정형 데이터에 대한 특징을 추출하여, 추출된 특징 벡터들을 합친 뒤 예측 네트워크를 사용하여 최종적으로 환자의 패혈증 발생 여부를 예측하도록 모델을 구성하였습니다. 모델의 상세한 구조는 아래의 그림을 참고하시면 됩니다.
모델 학습 뒤에는 학습에 사용하지 않았던 데이터들을 이용해 모델의 성능을 확인합니다.
기존의 다른 패혈증 평가도구와 비교하여, AITRICS의 VitalCare는 3가지 예측 시간대 모델을 이용하여 임상 현장에서 의료진들에게 보다 더 구체적인 패혈증 발생 시점 정보를 제공할 수 있습니다. 2시간 / 4시간 / 6시간 이내 패혈증 발생 여부를 예측하는 모델, 이렇게 총 3가지를 조합하면 아래 표에서 처럼, 각각의 경우에 대해 환자의 패혈증 발생 시점을 보다 구체적으로 제시할 수 있습니다. 이러한 정보를 통해 의료진들은 패혈증 발생을 예방하기 위한 적절한 치료 시기를 판단할 수 있습니다.
현재 최종적으로 AITRICS의 VitalCare에 적용된 모델을 실제 병원에서 사용할 수 있도록, 임상 성능을 검증하기 위해 임상시험을 진행하고 있습니다.
위와 같은 과정을 거쳐 VitalCare는 패혈증 조기 예측을 통해 의료진이 사전에 적절한 대응을 할 수 있도록 보조함으로써, 패혈증으로 인한 환자의 사망률을 낮추기 위하여 개발되었습니다. 현재 진행중인 임상시험 및 인허가를 하루빨리 완료하여 실제 의료 현장에서 쓰일 수 있기를 바랍니다.
AITRICS는 더 많은 질병을 사전에 예측하고, 더 정확한 정보로 의료진을 서포트할 수 있도록 좋은 모델을 계속해서 개발해나갈 것 입니다.
의료 현장에서 딥러닝 모델이 실제로 사용되기 위해서는 단순히 높은 예측 성능만으로는 부족합니다. 그에 더해 해당 기술과 제품을 사용하는 의료진이 그 모델을 온전히 신뢰하고 사용하기 위해서 모델의 결과에 대한 해석, 즉 결과값이 나온 이유를 함께 제공하는 것이 필요합니다. 이어서 연재될 블로그 포스팅을 통해 이러한 기능들이 VitalCare에 어떻게 적용되었는지에 대해 설명해드리겠습니다.