Неизвестный токен с предложением - PullRequest
0 голосов
/ 18 октября 2019

У меня огромный корпус текста, на котором я обучил предложение. Я хочу маркировать этот текст и передать его в word2vec для изучения встраивания слов.

Однако, когда я запускаю sp.EncodeAsPieces (text), если существует слово, которого нет в sp vocab, оно невернуться <УНК>. Вместо этого он сохраняет слово как есть. Это проблема для запуска word2vec, потому что эти маркеры не будут рассматриваться как <УНК>.

1004 * Единственное решение, которое я нашел до сих пор является использование sp.EncodeAsIds, который размечает текст на номера и неизвестные словатокенизированы до 0. Но я теряю читаемость, которая идет с EncodeAsPieces. Любой способ использования EncodeAsPieces и разметить слова не Vocab к <УНКА>
...