Я создал очень большой Spark Dataframe с PySpark на моем кластере, который слишком велик, чтобы поместиться в память. У меня также есть модель автокодера с Keras , которая принимает фрейм данных Pandas (объект в памяти).
Как лучше всего объединить эти два мира?
Я нашел несколько библиотек, которые обеспечивают глубокое обучение в Spark, но, кажется, только для настройки гиперпараметров или не поддерживают автоэнкодеры, такие как Apache SystemML
Я, конечно, не первый, кто тренирует NN на кадрах данных Spark. У меня здесь есть концептуальный пробел, пожалуйста, помогите!