Question

Мы знаем, что у bert есть предел максимальной длины токенов = 512, поэтому, если длина артикула намного больше, чем 512, например, 10000 токенов в тексте. В таком случае, как я могу использовать BERT?

arpitrathi · Answer 1 · 16 апреля 2020

У вас есть 2 варианта:

Усеченные последовательности длиннее 512 токенов.
Вы можете использовать скользящее окно подобный подход, реализованный chunk_long_sequences особенность в библиотеке тонкой настройки.

В вашем случае, с последовательностями около 10000 токенов, я бы go с опцией 2.

Какую предварительно обученную модель мне нужно использовать для классификации длинных текстов в BERT?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какую предварительно обученную модель мне нужно использовать для классификации длинных текстов в BERT?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы