Прогнозирование правильного кластера для невидимых данных с использованием обученной модели K-средних - PullRequest
0 голосов
/ 04 февраля 2019

Я знаю, что K-Means - это ленивый ученик, и его придется переучивать с нуля новыми точками, но все же хотелось бы знать, есть ли обходной путь для использования обученной модели для прогнозирования новых невидимых данных.

Я использую алгоритм K-Means для группировки медицинского корпуса.Я создаю матрицу терминологического документа для представления этого корпуса.Перед подачей данных в алгоритм kmeans я выполняю усеченное разложение по сингулярным значениям для уменьшения размерности.Я думал, есть ли способ кластеризовать новый невидимый документ без переподготовки всей модели.

Чтобы получить векторное представление нового документа и предсказать его кластер с использованием обученной модели, мне нужно убедиться, что он имеет такой же словарный запас, что и у обученной модели, а также поддерживает тот же порядок в терминахматрица документов.Это можно сделать, учитывая, что эти документы имеют похожий словарный запас.Но как мне получить SVD представление этого документа?Теперь вот где мое понимание становится немного шатким, поэтому поправьте меня, если я ошибаюсь, но чтобы выполнить SVD для этого векторного представления, мне нужно добавить его в исходную матрицу терм-документа.Теперь, если я добавлю этот новый документ к исходной матрице терм-документа и выполню SVD, чтобы получить векторное представление с ограниченными возможностями (в нашем случае 100), то я не уверен, как все изменится?Будут ли новые функции, выбранные SVD, семантически соответствовать оригинальным?то есть не имеет смысла измерять расстояние нового документа от центроидов кластера (с 100 объектами), если соответствующие объекты охватывают различные концепции.

Есть ли способ использовать обученную модель kmeans для новых текстовых данных?Или какой-нибудь другой подход к кластеризации, более подходящий для этой задачи?

1 Ответ

0 голосов
/ 04 февраля 2019

Ваша проблема не k-means, простой классификатор ближайшего соседа, использующий средства в качестве данных, будет работать.

Ваша проблема - SVD, которая не стабильна.Добавление новых данных может дать вам совершенно другие результаты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...