Question

Фрейм данных имеет только один столбец «возраст» и содержит 140 миллионов строк. Например, df.agg(sum("age")) и df.rdd.map(x=>x(0).toString.toFloat).sum получают разные значения. Между ними почти в три раза больше разницы.

gary yong · Answer 1 · 02 мая 2018

Это потому, что эффективных чисел типа float недостаточно, поэтому сумма в итоге меньше, чем фактический результат. Когда array.map(_.toDouble).sum, результат правильный.

Различная сумма между столбцом dataframe и его массивом в искровой скале

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Различная сумма между столбцом dataframe и его массивом в искровой скале

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы