Нужно ли мне предварительно токенизировать текст, прежде чем использовать RobertaTokenizer HuggingFace? (Различное понимание) - PullRequest
0 голосов
/ 17 июня 2020

Я смущаюсь при использовании токенизатора Роберты в Huggingface.

>>> tokenizer = RobertaTokenizer.from_pretrained('roberta-base')
>>> x = tokenizer.tokenize("The tiger is ___ (big) than the dog.")
['The', 'Ġtiger', 'Ġis', 'Ġ___', 'Ġ(', 'big', ')', 'Ġthan', 'Ġthe', 'Ġdog', '.']
>>> x = tokenizer.tokenize("The tiger is ___ ( big ) than the dog.")
['The', 'Ġtiger', 'Ġis', 'Ġ___', 'Ġ(', 'Ġbig', 'Ġ)', 'Ġthan', 'Ġthe', 'Ġdog', '.']
>>> x = tokenizer.encode("The tiger is ___ (big) than the dog.")
[0, 20, 23921, 16, 2165, 36, 8527, 43, 87, 5, 2335, 4, 2]
>>> x = tokenizer.encode("The tiger is ___ ( big ) than the dog.")
[0, 20, 23921, 16, 2165, 36, 380, 4839, 87, 5, 2335, 4, 2]
>>>

Вопрос : (big) и ( big ) имеют разные результаты токенизации, что также приводит к разному идентификатору токена. Какой мне использовать? Означает ли это, что я должен сначала предварительно токенизировать ввод, чтобы сделать его ( big ) и go для RobertaTokenization? Или это не имеет особого значения?

Во-вторых, похоже, что BertTokenizer не имеет такой путаницы:

>>> tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
>>> x = tokenizer.tokenize("The tiger is ___ (big) than the dog.")
['the', 'tiger', 'is', '_', '_', '_', '(', 'big', ')', 'than', 'the', 'dog', '.']
>>> x = tokenizer.tokenize("The tiger is ___ ( big ) than the dog.")
['the', 'tiger', 'is', '_', '_', '_', '(', 'big', ')', 'than', 'the', 'dog', '.']
>>>

BertTokenizer дает мне те же результаты с использованием фрагментов слова.

Есть ли какие-либо мысли, которые помогут мне лучше понять RobertaTokenizer, который, как я знаю, использует парное байтовое кодирование?

1 Ответ

0 голосов
/ 17 июня 2020

Трансформаторы Hugingface спроектированы таким образом, что вы не должны проводить предварительную токенизацию.

RoBERTa использует SentecePiece, которая имеет предварительную токенизацию без потерь. То есть, когда у вас есть токенизированный текст, вы всегда должны иметь возможность сказать, как этот текст выглядел до токенизации. Ġ (это , странное подчеркивание Unicode в исходном SentecePiece) говорит, что при детокенизации должен быть пробел. Как следствие, big и ▁big оказываются разными токенами. Конечно, в данном конкретном контексте это не имеет особого смысла, потому что это, очевидно, все еще одно и то же слово, но это цена, которую вы платите за токенизацию без потерь, а также то, как был обучен RoBERTa.

BERT использует WordPiece, который не страдает этой проблемой. С другой стороны, сопоставление между исходной строкой и токенизированным текстом не так просто (что может быть неудобно, например, если вы хотите выделить что-то в тексте, созданном пользователем).

...