Question

Я хочу предварительно обучить BERT и RoBERTa MLM с использованием доменного корпуса (текст, связанный с настроениями). Сколько времени это займет для использования слов 50k ~ 100k. Поскольку RoBERTa не обучена предсказанию цели следующего предложения, на одну цель обучения меньше, чем BERT и с большими мини-пакетами и показателями обучения, я предполагаю, что RoBERTa будет намного быстрее?

Jindřich · Answer 1 · 10 февраля 2020

100k слов - это слишком мало, чтобы обучить такую большую модель, как BERT или RoBERTa. Основное требование к бумаге RoBERTa заключается в том, что BERT фактически недоучен. В то время как BERT был обучен работе с 16 ГБ текстовых данных, RoBERTa использовала 160 ГБ простого текста.

Для небольших c данных, специфичных для домена, как вы описываете, вы можете попробовать настроить существующую модель. В этом случае я хотел бы go для RoBERTa, потому что он, кажется, лучше предварительно обучен, не имеет цели следующего предложения (что затрудняет предварительную обработку данных для него), и он использует SentencePiece для токенизации, который позволяет детоксикации без потерь.

Предварительная подготовка языковой модели BERT / RoBERTa с использованием доменного текста, сколько времени это займет приблизительно? что быстрее?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Предварительная подготовка языковой модели BERT / RoBERTa с использованием доменного текста, сколько времени это займет приблизительно? что быстрее?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы