По сути, это проблема классификации текста / проблема классификации документов. Если у вас есть доступ к ряду уже помеченных документов, вы можете проанализировать, какие слова (содержания) вызывают какие теги, а затем использовать эту информацию для пометки новых документов.
Если вы не хотите использовать подход машинного обучения и у вас все еще есть коллекция документов, то вы можете использовать такие метрики, как tf.idf , чтобы отфильтровать интересные слова.
Пройдя еще один шаг, вы можете использовать Wordnet , чтобы найти синонимы и заменить слова их синонимами, если частота синонимов выше.
Manning & Schütze содержит гораздо больше введений по категоризации текста.