의료산업에서의 적용
인공지능이 의료산업에서 적용되는 범위는 연구 분야를 비롯하여 신약 개발, 환자 데이터 수집 및 분석 그리고 위협 요소 확보, 병원 관리 프로그램, 임상의사의 수술 지원 그리고 웨어러블 디바이스(Wearable device)를 이용한 환자의 건강 추적 관리 등이 있다.
지도형 학습 : 이미 환자의 예후가 존재하는 임상데이터에서 임상적인 마커들이 존재한다면, 이 가운데 환자의 예후를 결정지을 수 있는 주요 인자들을 인공지능을 이용해 발굴할 수 있고, 신약에 대해 임상적으로 중요한 요소에 대한 예측이 가능하다.
약물 개발과정
1. 생물학적인 활성을 갖는 새로운 화학적 화합물의 선별과 생물학적 활성 검증 → 리드 물질 확보
2. 리드 물질의 생물학적인 영향과 리드 물질의 신약으로서의 영향도 측정
3. 생물학적인 영향이 검증된 리드 물질의 최적화 과정(반응성 최적화, 독성 약화를 위한 구조 변화)
4. 모든 검증을 마친 최종 약물은 임상 진입을 위한 전임상 연구에 진입
약물개발에서의 적용
AI를 통합한 신약개발 기술은 약물의 식별 및 검증, 신약의 설게와 신약에 대한 용도 변경, R&D 효율성 개선 그리고 병용 치료 가능성 여부 등 어디서나 적용 가능한 다목적 도구로 사용된다.
질병과 타겟과의 연관성 분석
2016년 JTM에서 보고된 오픈 타켓 플랫폼은 질병을 제어할 수 있는 유전자를 예측할 수 있는 충분한 가능성을 보여주었다. 이들이 사용한 머신러닝 방법으로는 random forest(RF), support vector machine(SVM), neural network 그리고 gradient boosting 방법을 적용하였다.
De novo 디자인
De novo 디자인을 이용한 새로운 신약개발에 있어서는 in silico 기술을 토대로 하여 가상의 화학물과 타겟 간의 관계를 분석할 수 있는 새로운 기술이다. 리드 물질이 타겟에 적용될 수 있는 정도, off-target에 binding 하여 독성을 일으킬 수 있는지에 대해 예측할 수 있다. LigBuilder로 De novo 약물 디자인을 한다.
약물-표적 상호작용을 위한 접근 방법
KronRLS-MKL은 약물과 표적 간의 상호작용을 확인할 수 있는 시스템으로 약물 표적을 예측하여 중요도를 나타내는 가중치가 적용된다. 약물-표적과의 상호작용 즉 DTI를 예측하기 위한 다양한 방법이 존재한다.
리드 물질의 독성 여부 판단법
임상시험을 실제로 수행하기 전에 독성 특성을 가진 화합물을 식별하는 것은 어려웠으나 AI로 약물 독성 예측 기술이 적용되고 있다. ProOCTOR 모델은 유전자와 유전자의 상호작용을 네트워크화하는 방식을 채택했다. 데이터베이스를 확보하여 머신러닝 기반의 분석 방법을 사용하여 중요도에 대한 수치를 적용하였으며, 이는 앙상블 decision tree 기반의 random forest 모델을 적용하였다. 그 결과 이전 모델에 비해 상당히 유의도가 높은 예측율을 보였으며 평가하기 위해 독립적인 데이터셋을 통해 결과를 검증하였다.
유전체 및 약물의 화학적 특성에 기반한 암세포의 민감도 예측 모델
이 연구에서는 머신러닝 기법 중 Elastic net을 이용한 회귀법을 이용하여, 약물유전자형 연관성을 확인하였고, PARP 억제에 대한 민감성을 실험적으로 검증하는 계기가 되었다. 머신러닝은 RF 및 regression 모델 등을 적용, 검증은 8 folds CV를 통해 검증하여 최적화된 모델로서 Elastic net이 가장 신뢰도가 높았다. (Home page - Cancerrxgene - Genomics of Drug Sensitivity in Cancer)
Deep learning을 이용한 신약개발
Dahl 등은 Merck Kaggle 챌린지 데이터셋에서 제공하는 2D topological descriptor를 이용하여 DNN을 적용해, 기존에 발표된 15개의 타켓 중 13개에서 좀 더 높은 타켓을 선별하였다. 비슷하게 Mayr 등은 DNN 모델을 적용하여 Tox21 챌린지에서 사용된 12,000개의 compound와 12가지의 toxocity assay 데이터를 토대로 하여 분석하여 우승을 하였다.Gomez-Bombarelli 등은 VAE (variational autoencoder)를 이용하여 화학구조를 생성하였다. 두 가지 항생제를 이용, 황색포도상구균에 대한 활성을 18%, 열대열말라리아 병원충의 활성을 28% 억제할 수 있는 리드 물질을 구현하였다. Olivecrona 등은 위에서 설명한 기반 컨셉트에서 강화 학습을 더해 도파민 리셉터 2의 리간드로 사용할 수 있는 화합물을 실험적으로 증명하였고, 이 모델에 대한 예측도가 95%임을 확인하였다.
결론
위에서 small molecule 신약을 다뤘지만, 신호전달에 관련된 약물과 단백체의 관계를 넘어 면역치료제의 적용 범위는 좀 더 복잡하고, 광범위할 것으로 예상된다. 이에 인공지능이 수행해야 할 분석 범위도 점차 확대 되고 있다. 특히 면역 치료제는 면역세포와 암세포, 기저세포와 사이토카인 및 케모카인 그리고 종양 항원에 대한 인식률 등 각 요소 간의 상관관계가 많아 기존의 분석 방법으로는 한계가 있어, 인공지능의 역할이 기대된다.
단어 정리
오토메이션 기술
RPA(Robotic Process Automation, 로봇 등에 의한 업무 자동화)는 연구 방법론적인 측면에 있어서 신약개발 시간과 노력을 감소시켰다. 사람이 하는 반복적인 태스크를 소프트웨어 로봇이 대신하는 것을 일컫기도 한다.
De novo
라틴어 표현으로 '새로운(of new)'를 의미한다. 생물학에서는 돌연변이나 합성 과정 등에서 기존에 없던 것이 새로 생겨나는 것을 의미한다. 단백질 디자인 과정에선 자연계에 존재하지 않는(not based on existing, natural sequences) 새로운 단백질 서열을 만들어내는 것을 의미한다. 단백질 구조 예측에서는 서열만 보고(based only on its sequence) 그 단백질의 3D 구조를 예측하는 것을 의미한다.
Gradient boosting
회귀분석 또는 분류 분석을 수행할 수 있는 예측모형이며 예측모형의 앙상블 방법론 중 부스팅 계열에 속하는 알고리즘이다. 모델이 잘 예측하지 못 하는 부분에 대해서 이후에 그 부분에서만 잘 동작하는 모델을 만드는 방법이다. 이전 모델의 정보를 바탕으로 다음 모델을 만들고, 또 만들어 나가며 최종적으로 만들어진 모델을 결합한 최종 모델을 만드는 것이 Boosting의 원리(sequential)이다.
"A strong model is built by combining weak learners in sequence where each learner learns from the mistakes of the previous weak learner."
in silico
기존 생명공학의 연구 방법 중, 살아있는 세포(생명체)를 대상으로 한 실험의 경우를 "In-Vivo"라 하며, 유리 시험관을 통한 방법을 "In-Vitro"라 한다. 이에 반해 최근 컴퓨터의 발달로 컴퓨터 시뮬레이션을 이용하는, 가상환경에서의 실험 방법을 "in silico"라 한다.
Drug Target Interaction(DTI)
질병을 유도하는 것으로 예측되는 타겟 물질과 약물 후보물질의 상호작용을 예측해 신약후보물질을 도출하는 것이다. 전통적인 실험실 기반(in vitro)의 DTI는 비용과 시간이 많이 소모될 뿐 아니라 DTI로 도출된 후보물질이 실제 신약으로 이어지는 경우가 10% 미만이다. 따라서 최근에는 컴퓨터 시뮬레이션 기반(in silico) 기술을 이용한 DTI 예측이 제안된다.
바이오마커(Biomarker)
일반적으로 단백질이나 DNA, RNA, 대사물질 등을 이용해 몸 안의 변화를 알아낼 수 있는 지표이다. 즉, 특정 질병이나 또는 암의 경우에서 정상이나 병적인 상태를 구분할 수 있거나 치료 반응을 예측할 수 있고 객관적으로 측정할 수 있는 표지자를 의미한다. 어떤 특정 질병에 걸렸는지, 걸렸으면 얼마나 심한지를 표현해주거나, 특정 약물을 복용했는데 우리 몸이 어느 정도 약효를 받고 있는지, 아니면 이상 반응을 하고 있는지에 대한 척도를 제공하는지 등을 나타낸다.
off-target 독성
off-target은 '표적외'라는 뜻. 의도하지 않는 수용체와 약물이 결합해서 생기는 독성을 의미한다.
댓글