Question

У меня есть фрейм данных с миллиардами записей.У меня есть несколько строковых столбцов, которые имеют только несколько тысяч уникальных значений - т.е. они являются категориями.

Нет смысла хранить строки как есть, из-за нехватки места.Например, pandas обрабатывает это с помощью категориального типа данных , который абстрагирует карту между строками и индексными картами.

Мне интересно, есть ли что-то подобное в искре.Или мне нужно создавать таблицы вручную, которые сопоставляют строки с индексом, созданным вручную?

Spark - эффективное хранение категориальных переменных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark - эффективное хранение категориальных переменных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов