Токенайзер пробелов для обучения языковой модели BERT с нуля с Huggingface - PullRequest
0 голосов
/ 13 апреля 2020

Я пытаюсь обучить языковой модели BERT с нуля, используя Huggingface API . Для этого мне нужно создать токенизатор, который токенизирует текстовые данные только на основе пробелов, и ничего больше. Я понимаю, что в Huggingface доступно несколько тонкенизаторов (таких как BPE, WordPiece), которые дают хорошие результаты для языковых моделей, но для моего случая использования я хочу токенизировать ввод текста на основе только пробелов и генерировать вокабы, которые не должны иметь любой вид специальных символов, а именно "##" перед словами.

Например: вход Hello, y'all! How are you? должен быть тонкенизирован как:

Hello,, y'all!, How, are, you?

Я проверил документацию [1] и [2] , но не нашел способа добиться этого.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...