Неправильная реализация вложений? - PullRequest
0 голосов
/ 20 октября 2019

Я новичок в НЛП и изучаю из книги Обработка естественного языка с PyTorch: создание интеллектуальных языковых приложений с использованием глубокого обучения . Связанное репозиторий github: здесь .

Я считаю, что реализация Embedded в этом блокноте имеет проблему и хотела бы подтвердить, если я прав.

Вспомогательный документ функции make_embedding_matrix говорит, что он должен быть представлен в списке слов в наборе данных. Однако для того, чтобы матрица внедрения возвращала правильное вложение слова из предварительно обученных вложений, список слов должен подаваться в том же порядке, что и в словаре. Кроме того, не должно быть пробелов в словарных индексах в словаре. Это большие предположения.

Я думаю, что правильный способ построить матрицу встраивания - передать вокаб в функцию make_embedding_function и использовать метод token_to_idx в вокабе, чтобы найти, какие строки матрицы встраивания должны быть заполнены.

Это правильно? Дайте мне знать, если есть лучшая ссылка.

...