Дефектная модель, обученная на наборе данных хронического заболевания почек - PullRequest
0 голосов
/ 07 ноября 2019

Я обучил модель на наборе данных о хроническом заболевании почек, найденном на - https://www.kaggle.com/mansoordaku/ckdisease Модели (Случайный Лес, Дерево Решений, Наивный Байес) дают точность 100%, но при тестировании модели с введенным пользователемИсходя из этого, модель, по-видимому, в значительной степени полагается на один признак (гемоглобин) для классификации заболевания. Я выполнил выбор признаков и выбрал 8 атрибутов с самой высокой корреляцией друг с другом, используя матрицу корреляции. См. https://github.com/jeetjain420/CKD-Web-App, для репозитория работы, которую я сделал. ckd.pythonanywhere.com Модель развернута в облаке, где пользователь вводит данные.

Нормальный диапазон гемоглобина составляет от 13,5 до 17,5 для мужчин и от 12,0 до 15,5 для женщин. Половой атрибут отсутствует в наборе данных. Но при классификации по значению гемоглобина выше нормального диапазона, это, по-видимому, дает результат отсутствия хронического заболевания, что означает, что модель не учитывает верхний диапазон значений гемоглобина.

Ожидаемым результатом является модель, учитывающаянормальное значение гемоглобина в диапазоне 13-17. Модель принимает значение выше 17, что также является ненормальным. Модель, кажется, принимает во внимание только значения гемоглобина. Использование аномального значения гемоглобина с другими нормальными значениями дает результат 1 (у пациента хроническое заболевание почек).

...