Классификация текста, включая предварительную обработку - PullRequest
0 голосов
/ 12 апреля 2011

Какой метод классификации документов является наилучшим, если время не имеет значения, и мы не знаем, сколько существует классов?

Ответы [ 2 ]

2 голосов
/ 12 апреля 2011

По моим (неполным) знаниям, иерархическая агломерационная кластеризация - лучший подход, если вы не знаете, сколько классов. Все остальные алгоритмы кластеризации требуют либо предварительного знания количества сегментов, либо какой-либо перекрестной проверки или других экспериментов для определения разумного количества сегментов.

1 голос
/ 13 апреля 2011
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...