Как узнать, является ли переменная категориальной или числовой, если она содержит только цифры? - PullRequest
0 голосов
/ 21 февраля 2019

У меня есть набор данных, который имеет несколько Variables.

Я хочу определить, как мы можем судить о переменной, если она является категориальной или числовой, отличной от метода подсчета уникальных значений, как, например, одна из моих переменных Тип болезни имеет 31 уникальное значение, тогда как другие Variable Distance из Office имеет 25 уникальных значений в виде чисел.

Ответы [ 2 ]

0 голосов
/ 21 февраля 2019

Короткий ответ: ваше знание проблемного домена / домена приложения скажет вам.

Существуют некоторые различия, которые вы ищете, но чтобы применить эти различия, вам все равно придется использовать некоторыезнание предметной области (иногда здравый смысл).

Ниже приведены некоторые различия, которые помогут вам различать:

  1. Для категориальных переменных набор разрешенных значений обычно fixed и редко меняется, если вообще.Напротив, для числовой переменной набор значений может измениться, например, при получении новой записи для того же набора данных.
  2. Числовые переменные потенциально могут иметь значения , которые не являются круглымицелые числа.В вашем примере, даже если «расстояние от офиса» имеет целочисленные значения , это может быть чисто случайным, или кто-то может сделать выбор в отношении точности числовой точности данных.
  3. Для категориальных переменных говорить о средних значениях обычно не имеет смысла.Например, есть 2 типа диабета, которые называются Тип 1, Тип 2, но просто не имеет смысла говорить о среднем из этих типов (Тип 1.2357?).
  4. Задайте себе это правило большого пальцавопрос: когда я выполняю свой анализ данных, могу ли я выразить свои выводы в терминах конкретных значений этой переменной?Как насчет диапазонов этой переменной («от 0 до 5 км», «от 5 до 10 км» и т. Д.).Например, могу ли я сообщить какие-либо выводы из моего анализа данных, в которых говорится: «Те, чье расстояние до офиса составляет 123, склонны к успеху в своей карьере»?Это конкретное значение звучит глупо, верно?Напротив, если бы это была категориальная переменная, такая как диабет типа 2, вы всегда можете сделать выводы в терминах конкретного значения.
0 голосов
/ 21 февраля 2019

<dataframename>.info() даст общее количество каждой переменной вместе с тем, является ли она ненулевой, и ее тип данных, такой как float64, object, int64 и т. Д.

...