Могу ли я обучить Word2vec с помощью Stacked Autoencoder с нелинейностями? - PullRequest
1 голос
/ 26 июня 2019

Каждый раз, когда я читаю о Word2vec, вложение получается с помощью очень простого автоэнкодера: всего один скрытый слой, линейная активация для начального слоя и softmax для выходного слоя.

Мой вопрос: почемуя не могу обучить какую-то модель Word2vec с помощью сложного автоэнкодера с несколькими скрытыми слоями с более интересными функциями активации?(Softmax на выходе будет сохранен, конечно.)

Я никогда не нашел объяснений по этому поводу, поэтому любые намеки приветствуются.

1 Ответ

1 голос
/ 27 июня 2019

Векторы слов отмечают, но скрытые состояния нейронной сети пытаются что-то добиться.

Чтобы ответить на ваш вопрос Конечно можно.

Если вы собираетесь это сделать, почему бы не использовать более красивые сети / кодировщики, такие как BiLSTM или Transformers.

Это то, что делали люди, которые создавали такие вещи, как ElMo и BERT (хотя их сети были намного более изящными).

...