Кластеризация концептуально похожих документов вместе? - PullRequest
6 голосов
/ 07 июля 2011

Это скорее концептуальный вопрос, чем фактическая реализация, и я надеюсь, что кто-то может прояснить. Моя цель заключается в следующем: учитывая набор документов, я хочу сгруппировать их так, чтобы документы, принадлежащие к одному кластеру, имели одинаковую «концепцию».

Из того, что я понимаю, Латентный семантический анализ позволяет мне найти низкоранговое приближение матрицы терминов-документов, т.е., учитывая матрицу X , она будет разлагаться X как произведение трех матриц, из которых одна будет диагональной матрицей Σ :

SVD

Теперь я бы продолжил, выбрав аппроксимацию низкого ранга, то есть выбрал бы только значения top-k из Σ , а затем вычислил X '. После того, как у меня есть эта матрица, я должен применить некоторый алгоритм кластеризации, и конечным результатом будет набор кластеров, группирующих документы с похожими концепциями. Это правильный способ применения кластеризации? Я имею в виду, вычисляя X ', а затем применяя кластеризацию поверх него или есть какой-то другой метод, который используется?

Кроме того, в несколько моем вопросе мне сказали, что значение соседа теряется с увеличением числа измерений. В таком случае, каково обоснование для кластеризации этих многомерных точек данных из X '? Я предполагаю, что требование кластеризовать подобные документы является требованием реального мира. В таком случае, как можно решить эту проблему?

1 Ответ

4 голосов
/ 08 июля 2011

Для первой части вашего вопроса: Нет, вам больше не нужно выполнять «кластеризацию». Такая кластеризация уже доступна в вашем singular value decomposition. Если это все еще неясно, более подробно изучите вашу ссылку Скрытый семантический анализ .

Для вашей второй части: пожалуйста, выясните первую часть вашего вопроса, а затем пересчитайте эту часть вашего вопроса, основываясь на этом.

...