Два самых популярных подхода к кластеризации документов: иерархическая кластеризация и k-означает .k-означает быстрее, поскольку он является линейным по количеству документов, в отличие от иерархического, который является квадратичным, но обычно считается, что дает лучшие результаты.Каждый документ в наборе данных обычно представляется в виде n-мерного вектора (n - количество слов), причем величина измерения, соответствующего каждому слову, равна его термину частота-обратная частота документа оценка.Оценка tf-idf снижает важность высокочастотных слов в вычислении сходства. косинусное сходство часто используется как мера сходства.
В статье, в которой сравниваются экспериментальные результаты между иерархическим и делительным пополам k-средним, алгоритм двоюродного брата и k-средним, можно найти здесь .
Простейшие подходы к уменьшению размерностипри кластеризации документов: а) выбрасывают все редкие и очень часто встречающиеся слова (скажем, встречающиеся в менее чем 1% и более чем в 60% документов: это несколько произвольно, вам нужно попробовать разные диапазоны для каждого набора данных, чтобы увидеть влияние на результаты), б) остановка : выбросить все слова в стоп-лист распространенных английских слов: списки можно найти в Интернете, и в) в качестве основы или удаление суффиксов, чтобы оставить только корни слов,Наиболее распространенный стеммер - это стеммер, разработанный Мартином Портером.Реализации на многих языках можно найти здесь .Обычно это уменьшает количество уникальных слов в наборе данных до нескольких сотен или даже нескольких тысяч, и дальнейшее уменьшение размерности может не потребоваться.В противном случае можно использовать такие методы, как PCA.