Как я могу создать и дополнить файл vocab.bpe (модели OpenTI GPT и GPT2) собственным текстом? - PullRequest
1 голос
/ 05 апреля 2019

Этот вопрос для тех, кто знаком с GPT или GPT2 моделями OpenAI.В частности, с задачей кодирования (Byte-Pair Encoding).Это моя проблема:

Я хотел бы знать, как я могу создать свой собственный файл vocab.bpe.

У меня есть текст на испанском языке, который я хотел бы использовать, чтобы соответствовать моему собственному bpeкодировщик.Мне удалось создать файл encoder.json с библиотекой python-bpe , но я не знаю, как получить файл vocab.bpe.Я просмотрел код в gpt-2 / src / encoder.py , но мне не удалось найти ни одной подсказки.Любая помощь или идея?

Большое спасибо заранее.

Ответы [ 2 ]

1 голос
/ 25 июня 2019

check здесь , вы можете легко создать тот же vocab.bpe, используя следующую команду:

python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000
0 голосов
/ 06 апреля 2019

Я не работал с GPT2, но bpemb - очень хорошее место для встраивания подслов.Согласно README

BPEmb - это коллекция предварительно обученных вложенных подслов на 275 языках, основанных на кодировании байтовой пары (BPE) и обученных в Википедии.Он предназначен для использования в качестве входных данных для нейронных моделей при обработке естественного языка.

Я использовал предварительно подготовленные вложения для одного из моих проектов вместе с предложениями , и он оказалсяочень полезно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...