Я работаю над проблемой классификации текста. Нашел несколько недавних статей, в которых говорится об использовании CNN + LSTM. Ни один из них не очень подробно c о том, как они токенизируют текст, но я не могу найти много / каких-либо доказательств того, что люди используют токенизацию подслова , хотя я действительно вижу менее строгие статьи в Интернете (в отличие от опубликованных исследований), где вложенное слово используется в классификации текста.
Мой вопрос: следует ли ожидать, что моя модель будет лучше работать с вложенными словами? Если да, то какова хорошая интуиция относительно того, почему?