PySpark: исчерпывающий список типов данных - PullRequest
0 голосов
/ 23 мая 2018

Я пытаюсь определить функцию в Python Spark, которая может сказать мне, какие столбцы следует считать числовыми (непрерывными), а какие - категориальными.При этом я обращаюсь к dtypes кадра данных и перебираю каждую переменную, чтобы проверить, является ли она членом continuous_types или categorical_types (определено ниже).continuous_types и categorical_types являются списками, и это их записи -

continuous_types = ('double', 'bigint')
categorical_types = ('string')

Я думаю, что есть больше строк / dtypes, которые должны быть частью обоих этих списков, особенно continuous_types.Я получил эти dtypes, создав и прочитав наборы данных и проверив их dtypes.Эти три исчерпывающие?

Я посмотрел эту ссылку , но не смог получить необходимую информацию.

Короче, какой исчерпывающий список значений я могу ожидать, когда получаю доступ кdtypes атрибут кадра данных искры

1 Ответ

0 голосов
/ 23 мая 2018

Здесь вы можете найти доступные типы: pyspark.sql.types

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...