У меня миллионы коротких (до 30 слов) документов, которые мне нужно разделить на несколько известных категорий. Возможно, что документ соответствует нескольким категориям (редко, но возможно). Также возможно, что документ не соответствует ни одной из категорий (также редко). У меня также есть миллионы документов, которые уже были классифицированы. Какой алгоритм я должен использовать, чтобы сделать работу. Мне не нужно делать это быстро. Я должен быть уверен, что алгоритм классифицирует правильно (насколько это возможно).
Какой алгоритм я должен использовать? Есть ли реализация в в C #?
Спасибо за вашу помощь!