Это скорее концептуальный вопрос, чем фактическая реализация, и я надеюсь, что кто-то может прояснить. Моя цель заключается в следующем: учитывая набор документов, я хочу сгруппировать их так, чтобы документы, принадлежащие к одному кластеру, имели одинаковую «концепцию».
Из того, что я понимаю, Латентный семантический анализ позволяет мне найти низкоранговое приближение матрицы терминов-документов, т.е., учитывая матрицу X , она будет разлагаться X как произведение трех матриц, из которых одна будет диагональной матрицей Σ :
Теперь я бы продолжил, выбрав аппроксимацию низкого ранга, то есть выбрал бы только значения top-k из Σ , а затем вычислил X '. После того, как у меня есть эта матрица, я должен применить некоторый алгоритм кластеризации, и конечным результатом будет набор кластеров, группирующих документы с похожими концепциями. Это правильный способ применения кластеризации? Я имею в виду, вычисляя X ', а затем применяя кластеризацию поверх него или есть какой-то другой метод, который используется?
Кроме того, в несколько моем вопросе мне сказали, что значение соседа теряется с увеличением числа измерений. В таком случае, каково обоснование для кластеризации этих многомерных точек данных из X '? Я предполагаю, что требование кластеризовать подобные документы является требованием реального мира. В таком случае, как можно решить эту проблему?