У меня есть набор из 50 миллионов фрагментов текста, и я хотел бы создать из них несколько кластеров.Размерность может быть где-то между 60k-100k.Средняя длина фрагмента текста будет 16 слов.Как вы можете себе представить, частотная матрица была бы довольно разреженной.Я ищу программный пакет / libray / sdk, который позволил бы мне найти эти кластеры.Я пробовал CLUTO в прошлом, но это кажется очень сложной задачей для CLUTO.Из моих онлайн-исследований я обнаружил, что BIRCH - это алгоритм, который может справиться с такими проблемами, но, к сожалению, я не смог найти в Интернете никакого программного обеспечения для реализации BIRCH (я нашел только пару специальных реализаций, таких как проекты заданий, в которых не было ни одноговроде документации вообще).Есть предложения?