У меня есть текст, который я хочу классифицировать с помощью кераса. Я создал конвейер, который принимает текст и выполняет некоторые преобразования в нем, и в конце концов один горячий кодирует его.
Теперь я хочу передать этот столбец OneHotEncoded непосредственно в keras в кирпичах данных вместе со столбцом метки, но я не могу этого сделать. Кажется, что все примеры, которые я вижу, начинаются с фрейма данных pandas, а затем преобразуются в массивный массив. Но кажется неэффективным взять мой фрейм данных pyspark и преобразовать его.
model.fit(trainingData.select('featuresFirst'), trainingData.select('label'))
дает мне:
AttributeError: 'DataFrame' object has no attribute 'values'
model.fit(trainingData.select('featuresFirst').collect(), trainingData.select('label').collect())
дает мне:
AttributeError: ndim
Что мне здесь не хватает?