Question

Я пытаюсь обучить языковой модели BERT с нуля, используя Huggingface API . Для этого мне нужно создать токенизатор, который токенизирует текстовые данные только на основе пробелов, и ничего больше. Я понимаю, что в Huggingface доступно несколько тонкенизаторов (таких как BPE, WordPiece), которые дают хорошие результаты для языковых моделей, но для моего случая использования я хочу токенизировать ввод текста на основе только пробелов и генерировать вокабы, которые не должны иметь любой вид специальных символов, а именно "##" перед словами.

Например: вход Hello, y'all! How are you? должен быть тонкенизирован как:

Hello,, y'all!, How, are, you?

Я проверил документацию [1] и [2] , но не нашел способа добиться этого.

Токенайзер пробелов для обучения языковой модели BERT с нуля с Huggingface

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Токенайзер пробелов для обучения языковой модели BERT с нуля с Huggingface

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы