Question

Я смотрю на векторизованные UDF в Spark 2.3. В этом этом видео говорится о (как минимум) двух проблемах.

Медленная сериализация
Неэффективные структуры данных в Python

Я полностью понимаю преимущество работы ученого по работе с платформами, к которому он привык, и я вижу с точки зрения производительности в эту ссылку , эта функция имеет большое преимущество. У кого-нибудь есть данные о том, сколько из этого связано с улучшением сериализации и сколько из-за панд?

Какова разбивка повышения производительности для векторизованных пользовательских функций?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Какова разбивка повышения производительности для векторизованных пользовательских функций?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов