.raw
указывает только на то, что они используют необработанную версию WikiText, это обычные текстовые файлы, содержащие необработанный текст:
Мы используем необработанный WikiText-2 (без токенов были заменены перед токенизацией).
В описании параметров файлов данных также указано, что они являются текстовыми файлами. Из run_language_modeling.py - L86-L88 :
train_data_file: Optional[str] = field(
default=None, metadata={"help": "The input training data file (a text file)."}
)
Поэтому вы можете просто указать свои текстовые файлы.