Мы используем spark (развернутый в AWS EMR) для запросов к очень большим наборам данных.
Наш набор данных содержит несколько столбцов с 64-разрядным целочисленным типом и несколько столбцов с 64-разрядным типом с плавающей запятой.
Проблема: Мы используем несколько пользовательских модулей зажигания, которые требуют, чтобы мы представляли эти 64-битные целые и 64-битные столбцы с плавающей запятой в виде строк, поскольку они поддерживают только 32-битные int и 32-битные с плавающей запятой.
Вопрос: Как это повлияет на производительность запросов в целом? (Например, запросы, которые выполняют математические вычисления для числовых столбцов, которые требуют преобразования строки-> числа)
Извинения за неспецифический вопрос. Меня интересует только то, есть ли значительная потеря производительности .