Какой алгоритм классификации выбрать? - PullRequest
4 голосов
/ 14 февраля 2011

Я хотел бы классифицировать текстовые документы на четыре категории.Также у меня есть много образцов, которые уже классифицированы, которые могут быть использованы для обучения.Я бы хотел, чтобы алгоритм выучил на лету ... пожалуйста, предложите оптимальный алгоритм, который работает для этого требования.

Ответы [ 4 ]

4 голосов
/ 14 февраля 2011

Если под «на лету» вы имеете в виду онлайн-обучение (где обучение и классификация могут чередоваться), я предлагаю алгоритм k - ближайший сосед Он доступен в Weka и в упаковке TiMBL .

Персептрон также сможет сделать это.

«Оптимальный» в данном контексте не является четко определенным термином.

3 голосов
/ 15 февраля 2011

Есть несколько алгоритмов, которые можно выучить на лету. Примеры: k-ближайшие соседи, наивный байесовский, нейронные сети. Вы можете попробовать, насколько уместен каждый из этих методов на корпусе образца.

1 голос
/ 21 февраля 2011

Поскольку у вас есть немеченые данные, вы можете использовать модель, в которой это помогает.Первое, что приходит мне в голову, - это нелинейный NCA: Изучение нелинейного вложения путем сохранения классовой структуры соседства (Салахутдинов, Хинтон) .

0 голосов
/ 18 февраля 2011

Что ж, я должен сказать, что классификация документов отличается от того, о чем вы, ребята, думаете.

Как правило, в классификации документов после предварительной обработки тестовые данные всегда чрезвычайно велики, например., O (N ^ 2) ... Поэтому это может быть слишком дорого в вычислительном отношении.

Другой типичный классификатор, который мне пришел в голову, - это дискриминантный классификатор ... которому не нужна порождающая модель для вашего набора данных,После тренировки вам нужно будет добавить свою единственную запись в алгоритм, и он будет засекречен.

Удачи с этим.Например, вы можете проверить книгу Э. Алпадина «Введение в машинное обучение».

...