Лучшее распознавание именованных сущностей и сходство с использованием spaCy - PullRequest
0 голосов
/ 24 сентября 2018

Я пробовал spaCy для небольшого побочного проекта, и у меня было несколько вопросов и проблем.

Я заметил, что результаты распознавания именованных сущностей spaCy (с его самой большой моделью en_vectors_web_lg) не даютне так точен, как API Google Cloud Natural Language [1].API Google способен извлекать больше объектов, точнее, скорее всего, потому что их модель еще больше.Итак, есть ли способ улучшить результаты NER в spaCy, если это возможно, с использованием другой модели или с помощью другого метода?

Во-вторых, API Google также возвращает ссылки на статьи в Википедии для соответствующих объектов.Возможно ли это и с помощью spaCy, или с использованием какой-либо другой методики, помимо результатов NER в spaCy?

В-третьих, я заметил, что у spaCy есть метод similarity() [2], в котором используются векторы слов GloVe.Но, будучи новичком в этом, я не уверен, каков наилучший способ часто выполнять сравнение сходства между каждым документом в наборе документов (скажем, 5000-10000 текстовых документов длиной до 500 символов каждый), чтобы генерировать группы похожих документов?

Надеемся, что у кого-то есть какие-либо предложения или советы.

Большое спасибо!


[1] https://cloud.google.com/natural-language/

[2] https://spacy.io/usage/vectors-similarity

1 Ответ

0 голосов
/ 24 сентября 2018

... Так есть ли способ улучшить NER spaCy?

Можно обучить модель spaCy для улучшения NER.Вы можете использовать объект GoldParse для его обучения.https://spacy.io/usage/training

Во-вторых, API Google также возвращает ссылки на статьи в Википедии для соответствующих лиц.Возможно ли это и с помощью spaCy, или с использованием какой-либо другой методики, помимо результатов NER для spaCy?

Я не видел, чтобы кто-нибудь пробовал эту функцию с помощью spaCy.

В-третьих,Я заметил, что у spaCy есть метод схожести () [2], в котором используются векторы слов GloVe ...

Я думаю, что это проблема кластеризации, и она не будет решена только с использованием подобия spaCy.Для кластеризации я настоятельно рекомендую перейти по следующей ссылке.http://brandonrose.org/clustering

...