Использование Spark DataFrame непосредственно в Keras (блоки данных) - PullRequest
0 голосов
/ 15 января 2019

У меня есть текст, который я хочу классифицировать с помощью кераса. Я создал конвейер, который принимает текст и выполняет некоторые преобразования в нем, и в конце концов один горячий кодирует его.

Теперь я хочу передать этот столбец OneHotEncoded непосредственно в keras в кирпичах данных вместе со столбцом метки, но я не могу этого сделать. Кажется, что все примеры, которые я вижу, начинаются с фрейма данных pandas, а затем преобразуются в массивный массив. Но кажется неэффективным взять мой фрейм данных pyspark и преобразовать его.

model.fit(trainingData.select('featuresFirst'), trainingData.select('label'))

дает мне:

AttributeError: 'DataFrame' object has no attribute 'values'


model.fit(trainingData.select('featuresFirst').collect(), trainingData.select('label').collect())

дает мне:

AttributeError: ndim

Что мне здесь не хватает?

...