Поздний ответ, но у него тоже была задача для курса - поэтому, если кто-то еще хочет изучить это, вот отправная точка:
Если вы ищете простые решения или, возможно, в качестве машинного обученияВ этом упражнении вы можете рассматривать автоматическую пометку как задачу классификации / классификации текста.Наивные байесовские классификаторы - это простые инструменты для понимания, и для их понимания есть множество псевдокодов и материалов.Показатель TFIDF (термин «частота, обратная частоте документа») - это еще кое-что, на что вы можете обратить внимание - хотя обычно оно связано с поиском информации, его можно решить для этой проблемы в сочетании с другими методами машинного обучения.
Однако вместо того, чтобы назначать новому образцу одну метку на основе определения классификатора NB, вам придется определить несколько меток.Вероятно, вы можете использовать информацию о совпадении тегов из учебного набора, чтобы помочь вам в этом.
Это упрощенное и наивное решение, и есть много подробностей о выборе функций (которые сводятся к сокращению независимых параметров, получению информации и т. Д.).Множество легкодоступных статей по этой теме исследования, чтобы попробовать!