Выполнить признание именованного субъекта - НЛП - PullRequest
0 голосов
/ 01 июля 2019

Я пытаюсь научиться выполнять распознавание именованных лиц.

У меня есть набор выписок, содержащих медицинскую информацию о пациентах.Я преобразовал свои неструктурированные данные в структурированные данные.Теперь у меня есть DataFrame, который выглядит следующим образом:

Text                        |   Target
normal coronary arteries...     R060

Столбец Text содержит информацию о диагнозе пациента, а столбец Target содержит код, который необходимо будетпредсказано в следующей задаче.

Я также создал словарь, который выглядит следующим образом:

Code (Key) | Term (Value)
A00          Cholera

Этот словарь содержит информацию о каждом диагнозе и афферентном коде.Столбец term будет использоваться для идентификации клинических объектов в корпусе.

Мне потребуется обучить классификатор и предсказать код, чтобы автоматизировать процесс назначения кодов для сводных данных о выписках (яобъясняя это, чтобы иметь представление о задаче, которую я выполняю).

До сих пор я преобразовывал свои данные в структурированные.Я пытаюсь понять, как я должен выполнить распознавание именованных лиц для обозначения медицинской терминологии.Я хотел бы попробовать прямое соответствие и нечеткое соответствие, но я не уверен, каковы предыдущие шаги.Должен ли я выполнять токенизацию, стеммирование, лемматизацию раньше?Или, во-первых, я должен найти медицинскую терминологию, поскольку клинически названные сущности часто являются многозначными терминами с вложенными структурами, которые включают в себя другие именованные сущности внутри них?Кроме того, какие пакеты или инструменты вы рекомендуете мне использовать в Python?

Я новичок в этой области, поэтому любая помощь будет оценена по достоинству!Спасибо!

1 Ответ

1 голос
/ 01 июля 2019

Если вы просите построить классификационную модель, то вам следует углубиться в изучение.Глубокое обучение очень эффективно в классификации.

При работе с задачами языковой обработки такого типа я рекомендую сначала токенизировать текст и выполнить заполнение.Базового токенизации должно быть достаточно, но вы можете перейти к более предварительной обработке, такой как базовая обработка строк, потому что правильная предварительная обработка может повысить точность вашей модели до 3% или 4%.Для базовой обработки строк вы можете использовать regex (встроенный пакет с именем re) в python.

https://docs.python.org/3/library/re.html

Я думаю, вы выполняете отображение после предварительной обработки.Картографирования должно быть достаточно для таких задач, как классификация, но я рекомендую вам узнать о встраивании слов.Встраивание в слова улучшит вашу модель.

Для всех этих задач я рекомендую использовать тензор потока.Tensorflow - известный инструмент для машинного обучения, языковой обработки, обработки изображений и многого другого.Вы можете изучить обработку естественного языка из официальной документации по тензорному потоку.Они предоставили весь учебный материал в учебном разделе по тензорному потоку.

https://www.tensorflow.org/tutorials/

Думаю, это поможет вам.Всего наилучшего в вашей работе !!!!

Спасибо.

...