Кто-нибудь знает библиотеку с открытым исходным кодом, которая использует термин кластеризация?
Спасибо, Янов
Apache Mahout предоставляет алгоритмы для кластеризации.
WEKA имеет целый набор инструментов для обработки текста и кластеризации.
Оформить заказ NLTK . Есть несколько кластеризованных модулей, которые могут работать на вас.
Python Scikit learn имеет несколько специальных пакетов для анализа текста . Кроме того, они имеют полный набор алгоритмов кластеризации, который включает K-средних , AP , Среднее смещение , Спектральная кластеризация , Алгоритмы иерархической кластеризации и DBSCAN (с соответствующими метриками оценки ). Это может быть полезно для вашей задачи кластеризации термина.
Ссылка на Scikit Узнайте последние видео-учебник
Ссылка на Книга Scikit Learn
Если у вас в Python есть NLTK, как уже упоминалось его автором, но есть и sklearn , который обеспечивает гораздо больше, чем просто кластеризацию. ( Ссылка приводит вас к соответствующим текстовым примерам).