11월, 2020의 게시물 표시

연구데이터 분석활용 경진대회 논문 작성 - 1) 관련 연구 조사

 논문 주제를 " 입원 환자의 데이터를 바탕으로 입원 기간 예측 알고리즘 개발 "로 결정 후,  자료 조사와 자문을 거쳐 총 4가지 머신러닝 모델을 이용하여 알고리즘을 개발하기로 했다. 연구에 사용한 데이터는 kaggle에서 제공하는 공공데이터를 활용했다. (https://www.kaggle.com/nehaprabhavalkar/av-healthcare-analytics-ii) 우리 팀의 연구 주제와 관련된 연구 조사 결과는 아래와 같다. 선행 연구 ( 강성홍 외 , 2019) 에서는 신경계통 질환을 대상으로 동반상병 보정 방법에 따른 중증도 보정 재원일수 예측 모형 개발에 대한 분석을 진행하였다 . 연구 결과 , CCS 진단군 분류 기준 동반상병 보정 방법을 포함한 모형이 CCI / ECI 를 포함한 모형보다 R-square 값이 높았으며 , Mean Absolute Error, Root Mean Squared Error 가 낮게 측정되었다 . 외국의 선행연구 (Yang 외 , 2010; Hachesu 외 , 2013; Morton 외 l, 2014) 의 경우 , 관상동맥질환 , 당뇨병 , 화상 등의 단위 질환에 대한 중증도 보정 재원일수 모형 개발 결과 서포트 벡터 회귀분석과 랜덤포레스트 분석방법을 이용한 모형의 예측력이 가장 우수하다고 결론 내렸다 . 이는 국내 선행연구 ( 최병관 외 , 2018; 강성홍 외 , 2019) 결과와 일치하지 않는 결과이다 . 건강검진데이터 , 자격 및 보험료 , 진료비 데이터를 활용한 고혈압 진료예측모형 ( 박일수 외 , 2008) 개발 관련 연구에서는 데이터마이닝의 로지스틱 회귀모형 , 의사결정나무 그리고 앙상블 모형을 활용하였다 . 3 가지 모형 중 로지스틱 회귀모형이 가장 우수한 모형으로 채택되었다 .  이번 연구에서 사용한 모델은 Random Forest, XGBoost, LightGBM이며  각 모델에 대해 조사해보았다. 1.  랜덤 포레스트 (Random Fore...