У меня есть текст на китайском языке, и я использую Bi-LSTM, чтобы предсказать, принадлежит ли каждый символ текста одному из следующих классов:
B (если charatcer находится в начале слова),I (если оно находится внутри слова), E (если оно находится в конце слова) S (если это один символ).
Для этого я взял каждый символ текстаи я создал словарь, благодаря этому я смог преобразовать последовательность символов в последовательности чисел, которые я даю своей сети (после фазы заполнения), например:
dictionary = {t: 1, h: 2, e: 3, p: 4, n: 5} Ручка -> 123 435 -> сеть -> BIE BIE
Все нормально, если я работаю с unigram.Тем не менее, моя сеть должна читать также биграммы.Как мне обращаться с биграммами?У меня нет специальных ярлыков для биграмм.(Может быть, моя сеть для каждого биграмма должна давать две метки? Для меня это не имеет смысла)