Тренировка BERT с встраиванием символов - PullRequest
0 голосов
/ 31 марта 2020

Имеет ли смысл изменить парадигму токенизации в модели BERT на что-то еще? Может быть, просто слово токенизация или символьный уровень токенизации?

1 Ответ

0 голосов
/ 31 марта 2020

Это зависит от вашей цели. Использование стандартного токена слова, безусловно, сработает, но многие слова окажутся вне словарного запаса, что приведет к плохой работе модели.

Работа полностью на уровне персонажа может быть интересной с точки зрения исследования: изучение того, как моделировать, будет научитесь сегментировать текст самостоятельно и как будет выглядеть такая сегментация по сравнению со стандартной токенизацией. Хотя я не уверен, что это принесет пользу для практического использования. Последовательности символов намного длиннее, чем последовательности подслов, и BERT требует квадратичной c памяти в длине последовательности, это просто излишне замедляет как обучение, так и вывод.

...