ApacheSpark 2.4 <> Интеграция TensorFlow с использованием Apache Arrow / toPandas () - PullRequest
0 голосов
/ 17 октября 2019

Я узнал, что в SPARK-23030 функция toPandas () на фрейме данных Apache SparkSQL возвращает данные в пакетном режиме (наиболее вероятно, что прокси-сервер pandas dataframe извлекает данные из spark постепенно).

Когда я теперь хочу передать эти данные в TensorFlow, как описано на странице Документация TensorFlow , мне нужно вызвать функцию «values» во фрейме данных pandas, которая копирует все данные в кучу python, а неиспользование нулевой функции чтения копии Apache Arrow.

  1. Верно ли мое предположение?
  2. Есть ли лучший способ сделать это?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...