100k слов - это слишком мало, чтобы обучить такую большую модель, как BERT или RoBERTa. Основное требование к бумаге RoBERTa заключается в том, что BERT фактически недоучен. В то время как BERT был обучен работе с 16 ГБ текстовых данных, RoBERTa использовала 160 ГБ простого текста.
Для небольших c данных, специфичных для домена, как вы описываете, вы можете попробовать настроить существующую модель. В этом случае я хотел бы go для RoBERTa, потому что он, кажется, лучше предварительно обучен, не имеет цели следующего предложения (что затрудняет предварительную обработку данных для него), и он использует SentencePiece для токенизации, который позволяет детоксикации без потерь.