Я немного новичок в Spark ML API. Я пытаюсь сделать мульти-ярлычную классификацию для 160 ярлыков, обучая 160 классификаторов (логистика или случайный лес и т. Д.). Когда я тренируюсь на наборе данных [LabeledPoint], мне трудно получить API, в котором я получаю вероятность для каждого класса для одного примера. Я читал на SO, что вы можете использовать API конвейера и получить вероятности, но для моего варианта использования это будет сложно, потому что мне придется повторить 160 RDD для моих функций оценки, получить вероятность для каждого класса, а затем сделать объединение, чтобы ранжировать классы по их вероятностям. Вместо этого я хочу иметь только одну копию оценочных функций, транслировать 160 моделей и затем делать прогнозы внутри функции карты. Я чувствую себя вынужденным реализовать это, но задаюсь вопросом, есть ли еще один удобный API в Spark, чтобы сделать то же самое для различных классификаторов, таких как Logistic / RF, который преобразует вектор, представляющий объекты, в вероятность его принадлежности к классу. Пожалуйста, дайте мне знать, если есть лучший способ приблизиться к классификации с несколькими метками в Spark.
РЕДАКТИРОВАТЬ: я пытался создать функцию для преобразования вектора в метку для случайного леса, но это очень раздражает, потому что теперь я должен клонировать большие куски обхода дерева в Spark, и почти везде я сталкивался с тупиками, потому что некоторые функции или переменная была частной или защищенной. Поправьте меня, если ошиблись, но если этот вариант использования еще не реализован, я думаю, что он, по крайней мере, вполне оправдан, потому что Scikit-learn уже имеет такие API для этого.
Спасибо