У меня есть фрейм данных с миллиардами записей.У меня есть несколько строковых столбцов, которые имеют только несколько тысяч уникальных значений - т.е. они являются категориями.
Нет смысла хранить строки как есть, из-за нехватки места.Например, pandas обрабатывает это с помощью категориального типа данных , который абстрагирует карту между строками и индексными картами.
Мне интересно, есть ли что-то подобное в искре.Или мне нужно создавать таблицы вручную, которые сопоставляют строки с индексом, созданным вручную?