Я начал анализировать статью BERT от google (https://arxiv.org/abs/1810.04805)) и наткнулся на несколько непонятных моментов.
Мои вопросы касаются языка масокМодель.
Во-первых, мы маскируем 15% токенов, и задача обучения состоит в том, чтобы предсказать эти токены (кажется, что сойтись очень далеко).
Но мы не просто маскируемэто с [MASK], но в 10% случаев: мы заменяем его случайным токеном. Но почему?
Более того, еще через 10% мы сохраняем токен без изменений
Цель этого состоит в том, чтобы сместить представление к фактическому наблюдаемому слову.
Эта цитата полностью смутила меня, в 80% случаев мы фактически маскируем это, как 10% помогут намсохранить предвзятость.
Буду признателен за любое объяснение.