Question

Я хотел бы использовать распознавание именованных объектов (NER) для идентификации слов или фраз в тексте, которые соответствуют клиническим понятиям.

У меня есть словарь, который содержит описание диагноза и код его метки.Пример первых 2 строк:

ICD10  ICD10Term
----------------
A00    Cholera
A000   Cholera due to Vibrio cholerae 01, biovar cholerae

Во-первых, я хотел начать с прямого соответствия со словарем, но я не уверен, как мне это сделать.Должен ли я просто искать, содержит ли словарь определенную строку?Или я должен использовать пакет или инструмент?

Я нашел spacy-lookup: https://github.com/mpuig/spacy-lookup

Я не уверен, как бы я использовал этот пакет в большом масштабе, так как у меня много txtфайлы и словарь.

Кроме того, есть ли другой пакет \ инструмент, который вы мне порекомендуете?

l.augustyniak · Answer 1 · 03 июля 2019

Я бы использовал pretrain функцию spaCy https://spacy.io/api/cli#pretrain, чтобы сначала обновить языковую модель для вашего домена.Тогда тренируйте NER с нуля - https://spacy.io/usage/training#ner

Resul Saparov · Answer 2 · 28 июня 2019

Для этого вам нужно сначала обучить собственную модель NER.

Подготовить набор данных, как требует spaCy, а затем обучить вашу модель.Тогда ваша модель должна быть способна обнаруживать сущности.

Распознавание именованных объектов - прямое сопоставление со словарем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Распознавание именованных объектов - прямое сопоставление со словарем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы