Этот вопрос для тех, кто знаком с GPT или GPT2 моделями OpenAI.В частности, с задачей кодирования (Byte-Pair Encoding).Это моя проблема:
Я хотел бы знать, как я могу создать свой собственный файл vocab.bpe.
У меня есть текст на испанском языке, который я хотел бы использовать, чтобы соответствовать моему собственному bpeкодировщик.Мне удалось создать файл encoder.json с библиотекой python-bpe , но я не знаю, как получить файл vocab.bpe.Я просмотрел код в gpt-2 / src / encoder.py , но мне не удалось найти ни одной подсказки.Любая помощь или идея?
Большое спасибо заранее.