Какой пакет документов с открытым исходным кодом лучше всего подходит для кластеризации документов? - PullRequest
6 голосов
/ 13 октября 2011

Какой пакет с открытым исходным кодом лучше всего подходит для кластеризации большого массива документов? Он должен либо сам определить количество кластеров, либо он также может принять это в качестве параметра.

У нас есть большое количество документов, которые на самом деле не вращаются вокруг определенной темы - это документы, подготовленные специалистами по продажам и руководству по различным проектам и клиентам в организации. Я знаю, что наличие такого распространенного корпуса ухудшит производительность, но мы стараемся жить с лучшим, что мы можем получить. Теперь, что самое лучшее, что мы можем получить: -)

1 Ответ

4 голосов
/ 17 октября 2011

Список программного обеспечения для моделирования тем с домашней страницы эксперта в данной области: http://www.cs.princeton.edu/~blei/topicmodeling.html

Конкурирующая ведущая группа (с открытым исходным кодом): http://nlp.stanford.edu/software/tmt/tmt-0.3/

Еще один открытыйИсходный проект Java: http://mallet.cs.umass.edu/topics.php

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...