Question

Мы знаем, что у bert есть предел максимальной длины токенов = 512, поэтому, если длина артикула намного больше, чем 512, например, 10000 токенов в тексте. Как можно использовать bert?

chefhose · Answer 1 · 31 октября 2019

У вас есть три основных варианта:

Вы отключаете более длинные тексты и используете только первые 512 жетонов. Исходная реализация BERT (и, возможно, другие) также автоматически усекает более длинные последовательности. В большинстве случаев этого параметра достаточно.
Вы можете разделить текст по нескольким подтекстам, классифицировать каждый из них и объединить результаты вместе (например, выберите класс, который был предсказан для большинства подтекстов). Этот вариант явно дороже.
Вы даже можете передать выходной токен для каждого подтекста (как в варианте 2) в другую сеть (но вы не сможете выполнить точную настройку), как описано в этом обсуждении .

Я бы предложил попробовать вариант 1, и только если он недостаточно хорош для рассмотрения других вариантов.

Как использовать Берт для классификации длинных текстов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать Берт для классификации длинных текстов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы