Если вы не используете случайную замену во время обучения, ваша сеть не научится извлекать полезные функции из немаскированных токенов.
другими словами, если вы используете маскирование и пытаетесь предсказать их, ваша сеть будет тратить ресурсы на извлечение полезных функций для немаскированных токенов (помните, что ваша сеть так же хороша, как и ваша задача, и он постарается найти самый простой способ решения вашей задачи)