Я использую bert для классификации настроения текста в наборах данных. Когда я использую 12-слойную модель предварительного обучения bert для точной настройки, valid_acc может достигать 0,94. Но когда я использую 24-слойную модель предварительного обучения bert для точной настройки, valid_acc всегда равен 0,54. Кто-нибудь может сказать мне причину и решение проблемы? СПАСИБО, СПАСИБО
google-Bert
bert-base********************
eval_accuracy = 0.9469469
eval_loss = 0.18823484
global_step = 375
loss = 0.1883263
bert-large*******************
eval_accuracy = 0.54108214
eval_loss = 0.6911154
global_step = 421
loss = 0.69078016