Какова разбивка повышения производительности для векторизованных пользовательских функций? - PullRequest
0 голосов
/ 12 марта 2019

Я смотрю на векторизованные UDF в Spark 2.3. В этом этом видео говорится о (как минимум) двух проблемах.

  • Медленная сериализация
  • Неэффективные структуры данных в Python

Я полностью понимаю преимущество работы ученого по работе с платформами, к которому он привык, и я вижу с точки зрения производительности в эту ссылку , эта функция имеет большое преимущество. У кого-нибудь есть данные о том, сколько из этого связано с улучшением сериализации и сколько из-за панд?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...