Кластеризация документов - PullRequest
0 голосов
/ 09 февраля 2012

Существуют ли какие-либо алгоритмы искусственного интеллекта, которые можно применять для улучшения результатов кластеризации документов? Алгоритм кластеризации может быть иерархическим или любым другим.

Спасибо

Ответы [ 2 ]

5 голосов
/ 10 апреля 2012

Статья в Википедии о кластеризации документов включает ссылку на статью 2007 года Николаса Эндрюса и Эдварда Фокса из Virginia Tech под названием " Последние разработки в кластеризации документов ". Я не уверен, что именно вы назвали бы «алгоритмом искусственного интеллекта», но сканирование содержимого статьи показывает, что они смотрят на модели векторного пространства, расширения на kmeans, генеративные алгоритмы, спектральную кластеризацию, уменьшение размерности, фазовые модели и Сравнительный анализ. Это довольно математически плотная трактовка, но они осторожно включают ссылки на алгоритмы, о которых говорят.

2 голосов
/ 23 ноября 2012

Кластеризация - действительно тип проблемы в области ИИ. И если вы хотите перейти на один уровень ниже, вы можете сказать, что это поле «Машинное обучение». В этом смысле ИИ не улучшает кластеризацию документов, а решает ее! Дамблдад упоминает некоторые базовые альтернативы, но тип данных, который вы имеете каждый раз, может лучше обрабатываться с помощью другого алгоритма. Существует много подходов, основанных на k-средних, для решения этой проблемы. В таком случае необходим тщательный посев. Сферическое К-среднее (поиск статьи Диллона) - это простой и стандартный подход. Другие расширения - k-синтетические прототипы .

Кластеризация подпространства также является хорошей попыткой, и в целом, если вы хотите пойти дальше, чем литературная проверка «кластеризация документов», «кластеризация в многомерных и разреженных пространствах данных».

...