Spark - эффективное хранение категориальных переменных - PullRequest
0 голосов
/ 08 февраля 2019

У меня есть фрейм данных с миллиардами записей.У меня есть несколько строковых столбцов, которые имеют только несколько тысяч уникальных значений - т.е. они являются категориями.

Нет смысла хранить строки как есть, из-за нехватки места.Например, pandas обрабатывает это с помощью категориального типа данных , который абстрагирует карту между строками и индексными картами.

Мне интересно, есть ли что-то подобное в искре.Или мне нужно создавать таблицы вручную, которые сопоставляют строки с индексом, созданным вручную?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...