Question

Я ищу модель BERT (, подробное описание можно найти здесь ), и у меня возникает проблема с четким пониманием необходимости сохранять или заменять случайное слово вместо 20% времени илипросто используйте токен [MASK] всегда для модели языка с маской.

Мы пытаемся обучить двунаправленной технике, и в статье объясняется, что «токен [MASK] никогда не виден во время тонкой настройки», но это два разных шага дляя, мы тренируемся сначала двунаправленно, а затем выполняем задачу вниз по течению.

Если кто-то может объяснить мне, где я ошибаюсь в моем понимании.

Separius · Answer 1 · 10 марта 2019

Если вы не используете случайную замену во время обучения, ваша сеть не научится извлекать полезные функции из немаскированных токенов.

другими словами, если вы используете маскирование и пытаетесь предсказать их, ваша сеть будет тратить ресурсы на извлечение полезных функций для немаскированных токенов (помните, что ваша сеть так же хороша, как и ваша задача, и он постарается найти самый простой способ решения вашей задачи)

Обработка модели языка маски, более глубокое объяснение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обработка модели языка маски, более глубокое объяснение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы