Как выбрать только пропущенные значения для тестирования модели? - PullRequest
0 голосов
/ 09 апреля 2020

Я работаю над проектом регрессии logisti c, где у меня есть 850 наблюдений и 8 переменных, и в этом я нашел 150 пропущенных значений, и я решил использовать эти значения в качестве тестовых данных. Как я могу принять только пропущенные значения в качестве тестовых данных в python?

Я все еще изучаю науку о данных, если в этом подходе есть ошибка, пожалуйста, дайте мне знать.

Спасибо:)

Ответы [ 2 ]

0 голосов
/ 09 апреля 2020

Вы можете выбрать все строки, в которых есть пропущенные значения, используя следующий код

df[df.isnull().values.any(axis=1)]

. Я не рекомендую использовать для тестирования все данные с пропущенными значениями. Вы должны либо заполнить пропущенные значения полностью, либо хотя бы частичные значения должны быть заполнены в тестовом наборе данных. Посмотрим, что посоветуют вам другие специалисты по машинному обучению.

0 голосов
/ 09 апреля 2020

Вы можете использовать библиотеку pd.isna() из pandas.

Она вернет логический массив, который вы можете использовать для фильтрации ваших данных.

...