Как использовать Берт для классификации длинных текстов? - PullRequest
1 голос
/ 31 октября 2019

Мы знаем, что у bert есть предел максимальной длины токенов = 512, поэтому, если длина артикула намного больше, чем 512, например, 10000 токенов в тексте. Как можно использовать bert?

1 Ответ

1 голос
/ 31 октября 2019

У вас есть три основных варианта:

  1. Вы отключаете более длинные тексты и используете только первые 512 жетонов. Исходная реализация BERT (и, возможно, другие) также автоматически усекает более длинные последовательности. В большинстве случаев этого параметра достаточно.
  2. Вы можете разделить текст по нескольким подтекстам, классифицировать каждый из них и объединить результаты вместе (например, выберите класс, который был предсказан для большинства подтекстов). Этот вариант явно дороже.
  3. Вы даже можете передать выходной токен для каждого подтекста (как в варианте 2) в другую сеть (но вы не сможете выполнить точную настройку), как описано в этом обсуждении .

Я бы предложил попробовать вариант 1, и только если он недостаточно хорош для рассмотрения других вариантов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...