В настоящее время я работаю с SVM-классом Apache Flink для прогнозирования некоторых текстовых данных.
Этот класс предоставляет функцию предиката, которая принимает DataSet [Vector] в качестве входных данных и дает мне DataSet [Prediction. ] как результат. Пока все хорошо.
Моя проблема в том, что у меня нет контекста, к какому тексту относится прогноз, и я не могу вставить текст в функцию предиката (), чтобы потом его иметь.
Код:
val tweets: DataSet[(SparseVector, String)] =
source.flatMap(new SelectEnglishTweetWithCreatedAtFlatMapper)
.map(tweet => (featureVectorService.transform(tweet._2))
model.predict(tweets).print
result example:
(SparseVector((462,8.73165920153676), (10844,8.508515650222549), (15656,2.931052542245018)),-1.0)
Есть ли способ сохранить другие данные рядом с прогнозом, чтобы все было вместе? потому что без контекста предсказание мне не помогает.
Или, может быть, есть способ просто предсказать один вектор вместо DataSet, чтобы я мог вызвать функцию внутри функции карты выше.