Кластеризация - действительно тип проблемы в области ИИ. И если вы хотите перейти на один уровень ниже, вы можете сказать, что это поле «Машинное обучение». В этом смысле ИИ не улучшает кластеризацию документов, а решает ее! Дамблдад упоминает некоторые базовые альтернативы, но тип данных, который вы имеете каждый раз, может лучше обрабатываться с помощью другого алгоритма. Существует много подходов, основанных на k-средних, для решения этой проблемы. В таком случае необходим тщательный посев. Сферическое К-среднее (поиск статьи Диллона) - это простой и стандартный подход. Другие расширения - k-синтетические прототипы .
Кластеризация подпространства также является хорошей попыткой, и в целом, если вы хотите пойти дальше, чем литературная проверка «кластеризация документов», «кластеризация в многомерных и разреженных пространствах данных».