Я пробовал spaCy для небольшого побочного проекта, и у меня было несколько вопросов и проблем.
Я заметил, что результаты распознавания именованных сущностей spaCy (с его самой большой моделью en_vectors_web_lg
) не даютне так точен, как API Google Cloud Natural Language [1].API Google способен извлекать больше объектов, точнее, скорее всего, потому что их модель еще больше.Итак, есть ли способ улучшить результаты NER в spaCy, если это возможно, с использованием другой модели или с помощью другого метода?
Во-вторых, API Google также возвращает ссылки на статьи в Википедии для соответствующих объектов.Возможно ли это и с помощью spaCy, или с использованием какой-либо другой методики, помимо результатов NER в spaCy?
В-третьих, я заметил, что у spaCy есть метод similarity()
[2], в котором используются векторы слов GloVe.Но, будучи новичком в этом, я не уверен, каков наилучший способ часто выполнять сравнение сходства между каждым документом в наборе документов (скажем, 5000-10000 текстовых документов длиной до 500 символов каждый), чтобы генерировать группы похожих документов?
Надеемся, что у кого-то есть какие-либо предложения или советы.
Большое спасибо!
[1] https://cloud.google.com/natural-language/
[2] https://spacy.io/usage/vectors-similarity