Ах, так что слова будут аргументом ключевого слова для объекта GoldParse. Это позволяет вам указать жетон золотого стандарта, если он не совпадает с жетоном spaCy. Предполагая, что ваш ввод выглядит так:
text = 'helloworld'
words = ['hello', 'world']
tags = ['INTJ', 'NOUN']
Вы можете сделать следующее:
doc = Doc(text)
gold = GoldParse(doc, words=words, tags=tags)
nlp.update([doc], [gold])
Кроме того, вы также можете использовать новый «простой стиль обучения» и просто передать текст в виде строки, а аннотации в виде словаря:
nlp.update([text], [{'words': words, 'tags': tags}])
В общем, мы рекомендуем использовать простой стиль, так как он удаляет один уровень абстракции и позволяет избавиться от импорта Doc и GoldParse. Но в конечном итоге стиль, который вы выбираете, зависит от ваших личных предпочтений.