В моем приложении Spark я использую NaiveBayesModel для классификации текстовых документов. Допустим, моя модель выглядит так:
class SomeDocument {
String text;
String lead;
}
Мой текущий подход состоит в том, чтобы токенизировать весь документ, включая text
и lead
, и обрабатывать каждый токен как черту. Это не соответствует бизнес-правилам, которым нужно lead
, чтобы быть более важным в классификации, чем text
. Другими словами, мне нужно установить вес для токена, а значение веса должно зависеть от источника (lead
из text
).
Я тренирую свою модель, используя метод NaiveBayes.train
.
Вопрос: Как установить весы для черт?