Обычно я использую набор обучающих данных, используя список слов с монограммой (состоит только из 1 слова в строке).Тем не менее, в последнее время я нашел метод обучения с использованием обоих списков слов Monogram и Bigram (2 слова / строка) с использованием GRU и 2 сетевых уровней conv на Tensorflow и Keras.Какая разница при использовании монограммы, биграммы или даже мультиграммы в тренировочном наборе?