Question

Этот вопрос для тех, кто знаком с GPT или GPT2 моделями OpenAI.В частности, с задачей кодирования (Byte-Pair Encoding).Это моя проблема:

Я хотел бы знать, как я могу создать свой собственный файл vocab.bpe.

У меня есть текст на испанском языке, который я хотел бы использовать, чтобы соответствовать моему собственному bpeкодировщик.Мне удалось создать файл encoder.json с библиотекой python-bpe , но я не знаю, как получить файл vocab.bpe.Я просмотрел код в gpt-2 / src / encoder.py , но мне не удалось найти ни одной подсказки.Любая помощь или идея?

Большое спасибо заранее.

vpcom · Answer 1 · 25 июня 2019

check здесь , вы можете легко создать тот же vocab.bpe, используя следующую команду:

python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000

scarecrow · Answer 2 · 06 апреля 2019

Я не работал с GPT2, но bpemb - очень хорошее место для встраивания подслов.Согласно README

BPEmb - это коллекция предварительно обученных вложенных подслов на 275 языках, основанных на кодировании байтовой пары (BPE) и обученных в Википедии.Он предназначен для использования в качестве входных данных для нейронных моделей при обработке естественного языка.

Я использовал предварительно подготовленные вложения для одного из моих проектов вместе с предложениями , и он оказалсяочень полезно.

Как я могу создать и дополнить файл vocab.bpe (модели OpenTI GPT и GPT2) собственным текстом?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу создать и дополнить файл vocab.bpe (модели OpenTI GPT и GPT2) собственным текстом?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов