Какой пакет с открытым исходным кодом лучше всего подходит для кластеризации большого массива документов? Он должен либо сам определить количество кластеров, либо он также может принять это в качестве параметра.
У нас есть большое количество документов, которые на самом деле не вращаются вокруг определенной темы - это документы, подготовленные специалистами по продажам и руководству по различным проектам и клиентам в организации. Я знаю, что наличие такого распространенного корпуса ухудшит производительность, но мы стараемся жить с лучшим, что мы можем получить. Теперь, что самое лучшее, что мы можем получить: -)