Как классифицировать текстовые документы, когда матрица терминов документа обучающего набора имеет термины, отличные от набора тестирования? - PullRequest
0 голосов
/ 10 апреля 2019

Я пытаюсь классифицировать новый набор документов, используя модель SVM, которую я построил.Однако e1071 выдает ошибку, говоря, что тестовые данные не соответствуют модели.Я понимаю, что он ожидает того же набора функций (терминов в матрице терминов документа) в новом наборе документов.Но часто этот свежий набор документов имеет больше и отличается от терминов (имен столбцов) в обученной модели.

Я пытался включить термины в обученной модели в матрицу терминов документасвежий набор.Но все же это не сработало для меня.Я проверил код e1071 и в соответствии с этим (см. Ниже) у меня должны быть одинаковые функции как в обученной модели, так и в свежем наборе документов.

if (ncol(object$SV) != ncol(newdata))
        stop ("test data does not match model !")

Как я могу решить эту проблему?Ценю любые советы.

...