Я пытаюсь извлечь ключевые слова / имена объектов из текста, используя spacy.
Я могу извлечь все имена объектов, но получаю много дубликатов.
Например,
def keywords(text):
tags = bla_bla(text)
return tags
article = "Donald Trump. Trump. Trump. Donald. Donald J Trump."
tags = keywords(article)
Вывод, который я получаю: ['Дональд Трамп', 'Трамп', 'Трамп', 'Дональд', 'Дональд Дж Трамп']
Как мне сгруппировать все эти теги под мастер-тегом «Дональд Дж Трамп»?