Это зависит от вашей цели. Использование стандартного токена слова, безусловно, сработает, но многие слова окажутся вне словарного запаса, что приведет к плохой работе модели.
Работа полностью на уровне персонажа может быть интересной с точки зрения исследования: изучение того, как моделировать, будет научитесь сегментировать текст самостоятельно и как будет выглядеть такая сегментация по сравнению со стандартной токенизацией. Хотя я не уверен, что это принесет пользу для практического использования. Последовательности символов намного длиннее, чем последовательности подслов, и BERT требует квадратичной c памяти в длине последовательности, это просто излишне замедляет как обучение, так и вывод.