Я пытаюсь научиться выполнять распознавание именованных лиц.
У меня есть набор выписок, содержащих медицинскую информацию о пациентах.Я преобразовал свои неструктурированные данные в структурированные данные.Теперь у меня есть DataFrame
, который выглядит следующим образом:
Text | Target
normal coronary arteries... R060
Столбец Text
содержит информацию о диагнозе пациента, а столбец Target
содержит код, который необходимо будетпредсказано в следующей задаче.
Я также создал словарь, который выглядит следующим образом:
Code (Key) | Term (Value)
A00 Cholera
Этот словарь содержит информацию о каждом диагнозе и афферентном коде.Столбец term
будет использоваться для идентификации клинических объектов в корпусе.
Мне потребуется обучить классификатор и предсказать код, чтобы автоматизировать процесс назначения кодов для сводных данных о выписках (яобъясняя это, чтобы иметь представление о задаче, которую я выполняю).
До сих пор я преобразовывал свои данные в структурированные.Я пытаюсь понять, как я должен выполнить распознавание именованных лиц для обозначения медицинской терминологии.Я хотел бы попробовать прямое соответствие и нечеткое соответствие, но я не уверен, каковы предыдущие шаги.Должен ли я выполнять токенизацию, стеммирование, лемматизацию раньше?Или, во-первых, я должен найти медицинскую терминологию, поскольку клинически названные сущности часто являются многозначными терминами с вложенными структурами, которые включают в себя другие именованные сущности внутри них?Кроме того, какие пакеты или инструменты вы рекомендуете мне использовать в Python?
Я новичок в этой области, поэтому любая помощь будет оценена по достоинству!Спасибо!