Распознавание именованных объектов - прямое сопоставление со словарем - PullRequest
1 голос
/ 27 июня 2019

Я хотел бы использовать распознавание именованных объектов (NER) для идентификации слов или фраз в тексте, которые соответствуют клиническим понятиям.

У меня есть словарь, который содержит описание диагноза и код его метки.Пример первых 2 строк:

ICD10  ICD10Term
----------------
A00    Cholera
A000   Cholera due to Vibrio cholerae 01, biovar cholerae

Во-первых, я хотел начать с прямого соответствия со словарем, но я не уверен, как мне это сделать.Должен ли я просто искать, содержит ли словарь определенную строку?Или я должен использовать пакет или инструмент?

Я нашел spacy-lookup: https://github.com/mpuig/spacy-lookup

Я не уверен, как бы я использовал этот пакет в большом масштабе, так как у меня много txtфайлы и словарь.

Кроме того, есть ли другой пакет \ инструмент, который вы мне порекомендуете?

Ответы [ 2 ]

0 голосов
/ 03 июля 2019

Я бы использовал pretrain функцию spaCy https://spacy.io/api/cli#pretrain, чтобы сначала обновить языковую модель для вашего домена.Тогда тренируйте NER с нуля - https://spacy.io/usage/training#ner

0 голосов
/ 28 июня 2019

Для этого вам нужно сначала обучить собственную модель NER.

Подготовить набор данных, как требует spaCy, а затем обучить вашу модель.Тогда ваша модель должна быть способна обнаруживать сущности.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...