Я узнал, что в SPARK-23030 функция toPandas () на фрейме данных Apache SparkSQL возвращает данные в пакетном режиме (наиболее вероятно, что прокси-сервер pandas dataframe извлекает данные из spark постепенно).
Когда я теперь хочу передать эти данные в TensorFlow, как описано на странице Документация TensorFlow , мне нужно вызвать функцию «values» во фрейме данных pandas, которая копирует все данные в кучу python, а неиспользование нулевой функции чтения копии Apache Arrow.
- Верно ли мое предположение?
- Есть ли лучший способ сделать это?