Как извлечь категории из коротких текстовых документов? - PullRequest
0 голосов
/ 02 апреля 2019

Мои данные содержат ответы на открытый вопрос: по каким причинам рекомендуется рекомендовать организацию, в которой вы работаете?

Я хочу использовать алгоритм / технику, которая, используя эти данные, изучает категории(то есть причины), которые встречаются чаще всего, и что новый ответ на этот вопрос может быть автоматически помещен в одну из этих категорий.

Сначала я думал о моделировании темы (например, LDA), но текстовые документыв этой задаче очень мало (в основном от 1 до 10 слов на документ).Следовательно, это подходящий метод?Или есть другие модели, которые подходят для этого?Возможно, кластерный метод?

Примечание: текст на голландском

1 Ответ

0 голосов
/ 03 апреля 2019

Нет, кластеризация будет работать еще хуже.

Он не может творить магию.

Чтобы решить эту проблему, вам потребуется ввести дополнительную информацию, такую ​​как метки - используйте классификацию .

Найдите наиболее распространенные термины, в которых четко указана та или иная причина, и начните маркировать сообщения.

...