Обнаружение аномалий в текстовой классификации - PullRequest
0 голосов
/ 11 сентября 2018

Я построил текстовый классификатор с помощью OneClassSVM.

У меня есть обучающий набор, который соответствует только одной метке, т. Е. («Да»), и у меня нет других («НЕТ») данных метки,Моя задача - создать классификатор, который классифицирует новое невидимое предложение (данные теста) как 1, если оно очень похоже на данные обучения.Иначе, он классифицируется как -1, т. Е. (Аномалия).

Я использовал Word2Vec для построения встраивания слов для моих тренировочных данных.Затем я использую усреднение по вектору слов в OneClassSVM для создания классификатора детектора аномалий.

Этот классификатор в настоящее время дает точность около 50% -55%.Я должен улучшить это, чтобы построить надежный классификатор.

Любые предложения по этой проблеме будут полезны ...

1 Ответ

0 голосов
/ 13 сентября 2018

Я бы предложил совсем другой подход, так как у вас нет тренировочных примеров для отрицательного класса вообще.Вы можете обучить языковой модели на ваших данных обучения.Во время вывода вы оцениваете входные данные с помощью языковой модели и классифицируете их в соответствии с некоторым порогом недоумения входного предложения в соответствии с LM.

...