Токенизация вложенных слов в классификации текста лучше, чем на уровне слов? - PullRequest
0 голосов
/ 19 июня 2020

Я работаю над проблемой классификации текста. Нашел несколько недавних статей, в которых говорится об использовании CNN + LSTM. Ни один из них не очень подробно c о том, как они токенизируют текст, но я не могу найти много / каких-либо доказательств того, что люди используют токенизацию подслова , хотя я действительно вижу менее строгие статьи в Интернете (в отличие от опубликованных исследований), где вложенное слово используется в классификации текста.

Мой вопрос: следует ли ожидать, что моя модель будет лучше работать с вложенными словами? Если да, то какова хорошая интуиция относительно того, почему?

...