Для решения этой проблемы используется фиксированный словарь для преобразования текста в набор слов. Токены, которые являются OOV (вне словаря), представлены специальным токеном <UNK>
.
Например, давайте определим словарь V
V = ['this', 'is', 'a', 'test', 'pass', 'and', 'are', '<UNK>']
Тогда ваши предложения будут будут представлены следующими векторами:
s1 = "This is a test, test is important" #important is OOV
v1 = [1, 2, 1, 2, 0, 0, 0, 1]
s2 = "Adam pass a test" # Adam is OOV
v2 = [0, 0, 1, 1, 1, 0, 0, 1]
Когда вы представляете свои обучающие данные в виде набора слов и подходите к модели, тестовые данные будут представлены таким же образом, и ваша модель будет предсказывать, используя это представление. В вашем случае
s3 = "test and exam are similar"
v3 = [0, 0, 0, 1, 0, 1, 1, 2]