Resumo:
Este estudo consiste em apresentar modelos de Machine Learning e seus resultados que foram
utilizados para predição de morte de pacientes que foram diagnosticados com câncer de mama.
Sendo assim inicialmente foi feita a coleta de uma amostra de 221 pacientes do gênero feminino
do hospital fundação assistencial da paraíba (FAP). Com base nos dados obtidos, foi realizado
um pré-processamento inicial que consiste em tratar algumas variáveis categóricas para colocar
no padrão das dummies e assim possibilitar a partir do modelo de Machine Learning interpretar
os dados categóricos. Por conta da quantidade de dados e por conta de dados faltantes que
existem nos dados não foi possível realizar o preenchimento dos dados faltantes para não
ocorrer o ajuste excessivo dos dados, porém foram utilizados modelos que funcionassem com
esses dados, sendo os modelos Extreme Gradient Boosting (XGBoost), Light Gradient Boosting
Machine (LightGBM) e o Categorical Boosting (CatBoost) que são modelos que se adequam
bem a dados faltantes por seguirem um modelo de árvore de decisão. Foi obtido alguns
resultados relevantes a partir dos modelos utilizados que foram o do modelo LightGBM de
acertar cerca de 85,00% das pacientes que não iriam morrer e cerca de 67,00% para as pacientes
que morreriam com uma acurácia total do modelo de 82,08%. Também foi avaliado a curva
ROC que teve sua área em torno de 00,71. Com isso para um modelo de aprendizado de
máquina obteve-se resultados bastante significativos para o estudo.
Descrição:
OLIVEIRA, José Lucas Costa de. Uso de machine learning para predição de morte: uma aplicação a pacientes com câncer de mama em uma cidade da Paraíba. 2023. 32 p. Trabalho de Conclusão de Curso (Graduação em Estatística) - Universidade Estadual da Paraíba, Campina Grande, 2023.