Я смотрю на векторизованные UDF в Spark 2.3. В этом этом видео говорится о (как минимум) двух проблемах.
- Медленная сериализация
- Неэффективные структуры данных в Python
Я полностью понимаю преимущество работы ученого по работе с платформами, к которому он привык, и я вижу с точки зрения производительности в эту ссылку , эта функция имеет большое преимущество. У кого-нибудь есть данные о том, сколько из этого связано с улучшением сериализации и сколько из-за панд?