Я использую neuralcoref - модуль разрешения сердцевины, основанный на парсере spaCy.GIT https://github.com/huggingface/neuralcoref
Однако результаты, которые я получаю, могут быть улучшены.Онлайн-визуализатор, предоставляемый huggingface (разработчиком neuralcoref), дает мне более точные результаты.
Текст, который я анализирую: «Лондон - столица и самый густонаселенный город Англии и Великобритании. Стоя на рекеТемза на юго-востоке острова Великобритания уже два тысячелетия является крупным поселением. "
Я получаю такой результат:
doc._.coref_resolved
Лондон - столица и самый густонаселенный город Англии и Великобритании.Стоя на реке Темзе на юго-востоке острова Великобритания, река Темза была крупным поселением в течение двух тысячелетий.
Таким образом, она ошибочно связывает Лондон с рекойThames.(это -> река Темза)
Онлайн-визуализатор neuralcoref возвращает правильную ссылку (это -> Лондон)
https://huggingface.co/coref/?text=London%20is%20the%20capital%20and%20most%20populous%20city%20of%20England%20and%20the%20United%20Kingdom.%20Standing%20on%20the%20River%20Thames%20in%20the%20south%20east%20of%20the%20island%20of%20Great%20Britain%2C%20it%20has%20been%20a%20major%20settlement%20for%20two%20millennia.%20It%20was%20founded%20by%20the%20Romans%2C%20who%20named%20it%20Londinium.
Я уже пробовал настраивать такие параметры, какжадность, max_dist, упомянутый на странице git проекта https://github.com/huggingface/neuralcoref
import spacy
nlp = spacy.load('en_core_web_lg')
import neuralcoref
neuralcoref.add_to_pipe(nlp,greedyness=0.5,store_scores=True)
text = "London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south east of the island of Great Britain, it has been a major settlement for two millennia."# It was founded by the Romans, who named it Londinium."
doc = nlp(text)
print(doc._.coref_resolved)
doc._.coref_scores
Есть ли способ настроить его так, чтобы получить результаты, аналогичные результатам визуализатора?
Спасибо!