Question

Я начал анализировать статью BERT от google (https://arxiv.org/abs/1810.04805)) и наткнулся на несколько непонятных моментов.

Мои вопросы касаются языка масокМодель.

Во-первых, мы маскируем 15% токенов, и задача обучения состоит в том, чтобы предсказать эти токены (кажется, что сойтись очень далеко).

Но мы не просто маскируемэто с [MASK], но в 10% случаев: мы заменяем его случайным токеном. Но почему?

Более того, еще через 10% мы сохраняем токен без изменений

Цель этого состоит в том, чтобы сместить представление к фактическому наблюдаемому слову.

Эта цитата полностью смутила меня, в 80% случаев мы фактически маскируем это, как 10% помогут намсохранить предвзятость.

Буду признателен за любое объяснение.

Модель языка маски BERT

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.