Я пытаюсь определить функцию в Python Spark, которая может сказать мне, какие столбцы следует считать числовыми (непрерывными), а какие - категориальными.При этом я обращаюсь к dtypes
кадра данных и перебираю каждую переменную, чтобы проверить, является ли она членом continuous_types
или categorical_types
(определено ниже).continuous_types
и categorical_types
являются списками, и это их записи -
continuous_types = ('double', 'bigint')
categorical_types = ('string')
Я думаю, что есть больше строк / dtypes
, которые должны быть частью обоих этих списков, особенно continuous_types
.Я получил эти dtypes
, создав и прочитав наборы данных и проверив их dtypes
.Эти три исчерпывающие?
Я посмотрел эту ссылку , но не смог получить необходимую информацию.
Короче, какой исчерпывающий список значений я могу ожидать, когда получаю доступ кdtypes
атрибут кадра данных искры