Как определить, есть ли неправильные значения в кадре данных панд? - PullRequest
0 голосов
/ 02 мая 2018

Я довольно новичок в программировании на Python, и я имею дело с большим фреймом данных для моей стажировки.

У меня была проблема, так как иногда в моем фрейме данных есть неправильные значения. Например, я нахожу значения строкового типа ("broken leaf") вместо целочисленных значений типа ("120 cm") или (NaN).

Я знаю, что есть функция df.replace(), но поэтому вам нужно знать, что существуют неправильные значения. Итак, как мне найти неправильные значения в моем фрейме данных?

Заранее спасибо

1 Ответ

0 голосов
/ 02 мая 2018

«120 см» - это строка, а не целое число, так что это запутанный пример. Вот несколько способов найти «неожиданные» значения:

Используйте "описать" , чтобы проверить диапазон числовых значений, чтобы увидеть, есть ли какие-либо далеко за пределами вашего ожидаемого диапазона.

Используйте «уникальные» , чтобы просмотреть набор всех значений для случаев, когда ожидается небольшое количество допустимых значений, например, поле пола.

Посмотрите на типы данных столбцов , чтобы увидеть, есть ли строки, попадающие в поля, которые должны быть числовыми.

Используйте регулярные выражения , если действительные значения для определенного столбца соответствуют предсказуемому шаблону.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...