Нет ответа «да» или «нет» на ваш вопрос.Я полагаю, вам нужно будет использовать какой-то неконтролируемый подход, чтобы подготовить ваш контролируемый набор данных.
TextRank может быть очень полезным для вас.
В противном случае я быПредложите (после того, как вы выполните обычную предварительную обработку, например, нижний регистр, удаление пунктуации и т. д.), примените word2vec (или любой тип векторизации слова), а затем какой-нибудь тип кластеризации, такой как K-means или даже лучше DBSCAN.
Таким образом, вы сможете визуально разделить «темы / темы» в своем наборе данных, а затем создать простой скрипт для их пометки.
Надеюсь, что это имеет смысл и будет полезно.