Question

Я смущаюсь при использовании токенизатора Роберты в Huggingface.

>>> tokenizer = RobertaTokenizer.from_pretrained('roberta-base')
>>> x = tokenizer.tokenize("The tiger is ___ (big) than the dog.")
['The', 'Ġtiger', 'Ġis', 'Ġ___', 'Ġ(', 'big', ')', 'Ġthan', 'Ġthe', 'Ġdog', '.']
>>> x = tokenizer.tokenize("The tiger is ___ ( big ) than the dog.")
['The', 'Ġtiger', 'Ġis', 'Ġ___', 'Ġ(', 'Ġbig', 'Ġ)', 'Ġthan', 'Ġthe', 'Ġdog', '.']
>>> x = tokenizer.encode("The tiger is ___ (big) than the dog.")
[0, 20, 23921, 16, 2165, 36, 8527, 43, 87, 5, 2335, 4, 2]
>>> x = tokenizer.encode("The tiger is ___ ( big ) than the dog.")
[0, 20, 23921, 16, 2165, 36, 380, 4839, 87, 5, 2335, 4, 2]
>>>

Вопрос : (big) и ( big ) имеют разные результаты токенизации, что также приводит к разному идентификатору токена. Какой мне использовать? Означает ли это, что я должен сначала предварительно токенизировать ввод, чтобы сделать его ( big ) и go для RobertaTokenization? Или это не имеет особого значения?

Во-вторых, похоже, что BertTokenizer не имеет такой путаницы:

>>> tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
>>> x = tokenizer.tokenize("The tiger is ___ (big) than the dog.")
['the', 'tiger', 'is', '_', '_', '_', '(', 'big', ')', 'than', 'the', 'dog', '.']
>>> x = tokenizer.tokenize("The tiger is ___ ( big ) than the dog.")
['the', 'tiger', 'is', '_', '_', '_', '(', 'big', ')', 'than', 'the', 'dog', '.']
>>>

BertTokenizer дает мне те же результаты с использованием фрагментов слова.

Есть ли какие-либо мысли, которые помогут мне лучше понять RobertaTokenizer, который, как я знаю, использует парное байтовое кодирование?

Jindřich · Answer 1 · 17 июня 2020

Трансформаторы Hugingface спроектированы таким образом, что вы не должны проводить предварительную токенизацию.

RoBERTa использует SentecePiece, которая имеет предварительную токенизацию без потерь. То есть, когда у вас есть токенизированный текст, вы всегда должны иметь возможность сказать, как этот текст выглядел до токенизации. Ġ (это ▁, странное подчеркивание Unicode в исходном SentecePiece) говорит, что при детокенизации должен быть пробел. Как следствие, big и ▁big оказываются разными токенами. Конечно, в данном конкретном контексте это не имеет особого смысла, потому что это, очевидно, все еще одно и то же слово, но это цена, которую вы платите за токенизацию без потерь, а также то, как был обучен RoBERTa.

BERT использует WordPiece, который не страдает этой проблемой. С другой стороны, сопоставление между исходной строкой и токенизированным текстом не так просто (что может быть неудобно, например, если вы хотите выделить что-то в тексте, созданном пользователем).

Нужно ли мне предварительно токенизировать текст, прежде чем использовать RobertaTokenizer HuggingFace? (Различное понимание)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нужно ли мне предварительно токенизировать текст, прежде чем использовать RobertaTokenizer HuggingFace? (Различное понимание)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы