Предварительная подготовка языковой модели BERT / RoBERTa с использованием доменного текста, сколько времени это займет приблизительно? что быстрее? - PullRequest
1 голос
/ 09 февраля 2020

Я хочу предварительно обучить BERT и RoBERTa MLM с использованием доменного корпуса (текст, связанный с настроениями). Сколько времени это займет для использования слов 50k ~ 100k. Поскольку RoBERTa не обучена предсказанию цели следующего предложения, на одну цель обучения меньше, чем BERT и с большими мини-пакетами и показателями обучения, я предполагаю, что RoBERTa будет намного быстрее?

1 Ответ

4 голосов
/ 10 февраля 2020

100k слов - это слишком мало, чтобы обучить такую ​​большую модель, как BERT или RoBERTa. Основное требование к бумаге RoBERTa заключается в том, что BERT фактически недоучен. В то время как BERT был обучен работе с 16 ГБ текстовых данных, RoBERTa использовала 160 ГБ простого текста.

Для небольших c данных, специфичных для домена, как вы описываете, вы можете попробовать настроить существующую модель. В этом случае я хотел бы go для RoBERTa, потому что он, кажется, лучше предварительно обучен, не имеет цели следующего предложения (что затрудняет предварительную обработку данных для него), и он использует SentencePiece для токенизации, который позволяет детоксикации без потерь.

...