Я пытаюсь обучить языковой модели BERT с нуля, используя Huggingface API . Для этого мне нужно создать токенизатор, который токенизирует текстовые данные только на основе пробелов, и ничего больше. Я понимаю, что в Huggingface доступно несколько тонкенизаторов (таких как BPE
, WordPiece
), которые дают хорошие результаты для языковых моделей, но для моего случая использования я хочу токенизировать ввод текста на основе только пробелов и генерировать вокабы, которые не должны иметь любой вид специальных символов, а именно "##" перед словами.
Например: вход Hello, y'all! How are you?
должен быть тонкенизирован как:
Hello,
, y'all!
, How
, are
, you?
Я проверил документацию [1] и [2] , но не нашел способа добиться этого.