Влияние Spark на представление числовых значений в виде строки? - PullRequest
0 голосов
/ 25 января 2019

Мы используем spark (развернутый в AWS EMR) для запросов к очень большим наборам данных.

Наш набор данных содержит несколько столбцов с 64-разрядным целочисленным типом и несколько столбцов с 64-разрядным типом с плавающей запятой.

Проблема: Мы используем несколько пользовательских модулей зажигания, которые требуют, чтобы мы представляли эти 64-битные целые и 64-битные столбцы с плавающей запятой в виде строк, поскольку они поддерживают только 32-битные int и 32-битные с плавающей запятой.

Вопрос: Как это повлияет на производительность запросов в целом? (Например, запросы, которые выполняют математические вычисления для числовых столбцов, которые требуют преобразования строки-> числа)

Извинения за неспецифический вопрос. Меня интересует только то, есть ли значительная потеря производительности .

...