Я хотел бы использовать распознавание именованных объектов (NER) для идентификации слов или фраз в тексте, которые соответствуют клиническим понятиям.
У меня есть словарь, который содержит описание диагноза и код его метки.Пример первых 2 строк:
ICD10 ICD10Term
----------------
A00 Cholera
A000 Cholera due to Vibrio cholerae 01, biovar cholerae
Во-первых, я хотел начать с прямого соответствия со словарем, но я не уверен, как мне это сделать.Должен ли я просто искать, содержит ли словарь определенную строку?Или я должен использовать пакет или инструмент?
Я нашел spacy-lookup
: https://github.com/mpuig/spacy-lookup
Я не уверен, как бы я использовал этот пакет в большом масштабе, так как у меня много txtфайлы и словарь.
Кроме того, есть ли другой пакет \ инструмент, который вы мне порекомендуете?