Я использую библиотеку Huggingface transformers
и хочу выполнить NER с помощью BERT. Я попытался найти явный пример того, как правильно отформатировать данные для NER, используя BERT. Мне не совсем понятно из статьи и комментариев, которые я нашел.
Допустим, у нас есть следующее предложение и метки:
sent = "John Johanson lives in Ramat Gan."
labels = ['B-PER', 'I-PER', 'O', 'O', 'B-LOC', 'I-LOC']
Будут ли данные, которые мы вводим в Модель будет примерно такой:
sent = ['[CLS]', 'john', 'johan', '##son', 'lives', 'in', 'ramat', 'gan', '.', '[SEP]']
labels = ['O', 'B-PER', 'I-PER', 'I-PER', 'O', 'O', 'B-LOC', 'I-LOC', 'O', 'O']
attention_mask = [0, 1, 1, 1, 1, 1, 1, 1, 1, 0]
sentence_id = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
?
Спасибо!