연구데이터 분석활용 경진대회 논문 작성 - 1) 관련 연구 조사
논문 주제를 "입원 환자의 데이터를 바탕으로 입원 기간 예측 알고리즘 개발"로 결정 후,
자료 조사와 자문을 거쳐 총 4가지 머신러닝 모델을 이용하여 알고리즘을 개발하기로 했다.
연구에 사용한 데이터는 kaggle에서 제공하는 공공데이터를 활용했다.
(https://www.kaggle.com/nehaprabhavalkar/av-healthcare-analytics-ii)
우리 팀의 연구 주제와 관련된 연구 조사 결과는 아래와 같다.
선행 연구(강성홍 외, 2019)에서는 신경계통 질환을 대상으로 동반상병 보정 방법에 따른 중증도 보정 재원일수 예측 모형 개발에 대한 분석을 진행하였다. 연구 결과, CCS 진단군 분류 기준 동반상병 보정 방법을 포함한 모형이 CCI / ECI를 포함한 모형보다 R-square값이 높았으며, Mean Absolute Error, Root Mean Squared Error가 낮게 측정되었다. 외국의 선행연구(Yang 외, 2010; Hachesu 외, 2013; Morton 외l, 2014)의 경우, 관상동맥질환, 당뇨병, 화상 등의 단위 질환에 대한 중증도 보정 재원일수 모형 개발 결과 서포트 벡터 회귀분석과 랜덤포레스트 분석방법을 이용한 모형의 예측력이 가장 우수하다고 결론 내렸다. 이는 국내 선행연구(최병관 외, 2018; 강성홍 외, 2019)결과와 일치하지 않는 결과이다.
건강검진데이터, 자격 및 보험료, 진료비 데이터를 활용한 고혈압 진료예측모형(박일수 외, 2008)개발 관련 연구에서는 데이터마이닝의 로지스틱 회귀모형, 의사결정나무 그리고 앙상블 모형을 활용하였다. 3가지 모형 중 로지스틱 회귀모형이 가장 우수한 모형으로 채택되었다.
이번 연구에서 사용한 모델은 Random Forest, XGBoost, LightGBM이며
각 모델에 대해 조사해보았다.
1. 랜덤 포레스트(Random Forest)
랜덤 포레스트는 학습 데이터로부터 부트스트랩(주어진 자료로부터 동일한 크기의 표본을 랜덤 복원 추출)을 통해 무작위 표본을 다수 생성하여 각 표본에 대한 독립적인 의사결정나무를 학습하고, 그 결과를 종합하여 최종 모형을 결정하는 의사결정나무 기반의 앙상블 방법(ensemble methods)이다(유진은, 2015; 오미애, 최현수, 김수현, 장준혁, 진재현, 천미경, 2017; 김보찬, 김유현, 김민정, 이종석, 2018). 이때 의사결정나무(Decision Tree)는 데이터의 속성에 따라 나무 형태의 의사결정 학습모델을 만들고, 반복을 통해 주어진 문제에 대한 최종 결정을 도출하는 방법이다(이근영, 2015). 랜덤 포레스트의 목적은 의사결정나무 모형을 다수 만들어 더 정확한 예측을 하는 것에 있다. 랜덤 포레스트는 독립변수에 대한 상대적 중요도 지수(variable of importance index)를 제공함으로써 종속변수에 대한 독립변수의 중요도를 숫자 또는 그래프로 알아볼 수 있도록 한다(유진은, 2015; 오미애, 최현수, 김수현, 장준혁, 진재현, 천미경, 2017).
2. XGBoost (Extreme Gradient Boosting)
XGBoost는 GBM(Gradient Boosting)을 병렬구조로 나눔으로써 속도와 성능을 향상시킨 모형이다(이은진, 2020). XGBoost는 회귀 및 분류, 순위 목표를 지원하는 모델로 트리 기반 앙상블 학습에서 각광받는 분석 모델이다. 처리 속도가 빠르며, 모델의 이전 결과를 활용하여 모델을 계속적으로 개선하고 훈련하는 등 성능이 뛰어나 Google, MS Azure, Alibaba 등 실무에서도 많이 활용되었다(하지은, 2017). XGBoost는 결측치를 내부적으로 자동 처리하며 트리를 생성할 때 병렬적으로 생성하며 새로운 데이터에 대해 이전의 학습 모델 결과를 반영하여 그 성능을 더 향상시키는 방법으로 훈련하는 특징을 가진다(Chen & Guestrin, 2016).
XGBoost는 CART(Classification And Regression Tree)라 불리는 앙상블 모델을 사용하는 트리를 만든다. 이후 부스팅(Boosting)을 통해 각 분류기 간 비중(weight)을 최적화한다. 일반적인 의사결정트리는 잎 하나에 대해서만 결정값(decision value)을 갖지만, CART 모델은 모든 잎들이 모델의 최종 스코어에 연관되어 있다. 또한 같은 분류 결과를 갖는 모델들의 우위를 점수로 비교할 수 있다(윤혜란, 2020).
3. LightGBM
LightGBM은 2017년에 Microsoft에서 발표한 모델이며, XGBoost를 보완하기 위해 만들어졌다. LightGBM은 XGBoost가 처리하지 못하는 대용량의 데이터를 학습할 수 있으며, 히스토그램 기반 근사치를 사용해 XGBoost 대비 성능이 향상되었다(이은진, 2020). 아래의 그림처럼 LightGBM은 최대 델타 손실(Max delta loss)이 큰 노드에서 분할하여 수직 성장하는 리프 분할 방식(Leaf-wise, best first)을 사용한다.
Recurrent Neural Network(RNN)는 순차 데이터(sequential data)를 모델링 할 수 있는 강력한 모델이다(이창기, 2015).