Итак, я сейчас заканчиваю урок с набором данных Titani c (https://www.kaggle.com/c/titanic/data). Сейчас я пробую пару новых вещей, которые могут быть связаны.
Информация для этого: Есть 891 записей (красная звездочка) и столбцы со значениями NaN (синие черточки) .
Когда я нашел небольшую сводку пропущенных значений, я запутался в .sum()
& .count()
:
В приведенном выше коде .sum()
увеличивается на единицу для каждого экземпляра нулевого значения. Таким образом, кажется, что выводом является значение количества пропущенных записей для каждого столбца во фрейме данных. (что я и хочу)
Однако , если мы сделаем .count()
, мы получим 891 для каждого столбца, независимо от того, используем ли мы .isnull().count()
или .notnull().count()
.
Итак, мой вопрос (ы):
Что означает .count()
в этом контексте?
Я думал, что он будет считать каждый экземпляр требуемого метода (в данном случае каждый экземпляр нулевой или не нулевой записи; в основном то, что .sum()
сделал).
Также; мое "определение" того, как .sum()
используется, это правильно?