Кластер тысячи текстовых документов в Java - PullRequest
3 голосов
/ 24 декабря 2010

Есть ли эффективный способ кластеризации текстовых документов?Я думал о K-Means, но это кажется слишком трудоемким.Может ли кто-нибудь предоставить мне эффективный метод?

Ответы [ 2 ]

1 голос
/ 24 декабря 2010

Если K-Means действительно выполняет свою работу и просто кажется медленной, то почему бы не попытаться сделать это быстрее? Я использую метод случайная пауза .

Обычно бывает так, что есть много возможностей для ускорения, в коде, который вы не считали бы проблемой, без изменения базового алгоритма. Вот пример.

1 голос
/ 24 декабря 2010

алгоритм кластеризации зависит от вашего набора данных, вы хотите написать алгоритм в java для кластеризации ваших документов?, вы можете использовать weka вместо того, чтобы заново изобретать колесо и попробовать другой алгоритм кластеризации в вашем наборе данных.

...