Предсказание пропущенного слова в тексте - PullRequest
0 голосов
/ 06 января 2020

Я знаю о BERT и других решениях, когда вы маскируете некоторые слова и пытаетесь предсказать их. Но, допустим, у меня есть текст:

Трансформер взял штурмом естественную обработку, преобразовав поле на дрожжах. Новые, более крупные и улучшенные модели, позволяющие поднять почти все показатели производительности по широкому кругу задач.

И я не могу заранее сказать BERT, где маскировка. Я ищу алгоритм, который может понять, где пропущенные слова, и после этого предсказать их.

1 Ответ

1 голос
/ 06 января 2020

Что вы можете сделать, это проверить каждую позицию в тексте (я бы рекомендовал начинать с позиции 2) сравнить, если следующее слово, присутствующее в тексте, входит в число наиболее вероятных следующих слов в соответствии с моделью, например:

"Трансформатор взял естественную обработку штурмом [...]"

  1. Первая итерация:

Ввод: "Трансформатор МАСКА "

Сравнить: МАСКА /" Иметь "

Вторая итерация:

Ввод: «Трансформер взял МАСКУ»

Сравнение: МАСКА / «the»

Третья итерация:

Ввод: "Трансформер взял МАСКУ"

Сравнение: МАСКА / "of" - Здесь вы, вероятно, имели бы очень низкую вероятность. Это может помочь вам проверить, может ли это быть местом для пропущенного слова.

Этот пост поможет вам достичь этого программно: Прогнозирование пропущенных слов в предложении - Модель обработки естественного языка

...