Question

Я узнал, что в SPARK-23030 функция toPandas () на фрейме данных Apache SparkSQL возвращает данные в пакетном режиме (наиболее вероятно, что прокси-сервер pandas dataframe извлекает данные из spark постепенно).

Когда я теперь хочу передать эти данные в TensorFlow, как описано на странице Документация TensorFlow , мне нужно вызвать функцию «values» во фрейме данных pandas, которая копирует все данные в кучу python, а неиспользование нулевой функции чтения копии Apache Arrow.

Верно ли мое предположение?
Есть ли лучший способ сделать это?

ApacheSpark 2.4 <> Интеграция TensorFlow с использованием Apache Arrow / toPandas ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

ApacheSpark 2.4 <> Интеграция TensorFlow с использованием Apache Arrow / toPandas ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы