Bi-LSTM: Как обращаться с униграммой и биграммой для классификации НЛП? - PullRequest
1 голос
/ 09 апреля 2019

У меня есть текст на китайском языке, и я использую Bi-LSTM, чтобы предсказать, принадлежит ли каждый символ текста одному из следующих классов:

B (если charatcer находится в начале слова),I (если оно находится внутри слова), E (если оно находится в конце слова) S (если это один символ).

Для этого я взял каждый символ текстаи я создал словарь, благодаря этому я смог преобразовать последовательность символов в последовательности чисел, которые я даю своей сети (после фазы заполнения), например:

dictionary = {t: 1, h: 2, e: 3, p: 4, n: 5} Ручка -> 123 435 -> сеть -> BIE BIE

Все нормально, если я работаю с unigram.Тем не менее, моя сеть должна читать также биграммы.Как мне обращаться с биграммами?У меня нет специальных ярлыков для биграмм.(Может быть, моя сеть для каждого биграмма должна давать две метки? Для меня это не имеет смысла)

...