Я хочу создать модель, которая может предсказать слово, отсутствующее в предложении (предложение содержит целое, которое необходимо заполнить)
Мой набор данных состоит из ~ 1000 предложений, самое короткое предложение имеет длину = 6, самое длинное предложение имеет длину ~ 120000. Размер словаря в наборе данных составляет всего 90.
Будет ли иметь огромное значение, что модель будет иметь одно кодировку или предварительно обученную модель word2vec (gensim)? Я использую предварительно обученные веса в слое встраивания в керас: какой смысл "замораживать" (не поддающийся обучению) этот слой, так как он не имеет никакого значения в отношении точности в моем случае?
Я попробовал оба представления, и, похоже, нет разницы в точности моих данных испытаний. Наивысшая точность, которую я достиг, была правильно предсказана на 55%.
Я на правильном пути или это неправильный подход для выполнения этой задачи? Моя машина работает очень медленно, что делает эксперименты с параметрами такими сложными и трудоемкими.
Буду признателен за любой совет или совет!