Лучший способ извлечь и классифицировать медицинские коды из документа? - PullRequest
0 голосов
/ 03 апреля 2019

Я хотел бы проанализировать медицинские документы и идентифицировать / классифицировать слова в них как различные медицинские коды, такие как HCPCS, ICD, CPT, APC и т. Д. Я думаю о лучшем способе сделать это;Я пробовал регулярные выражения, но они дают мне много ложных срабатываний (например, коды HCPCS, как правило, либо 5 цифр, либо 4 цифры + 1 буква), но это обнаруживает такие вещи, как 10000 мг, а другие коды не могут бытьтак же просто, как проверка 4 цифр, поскольку во многих документах это происходит по годам.

Некоторые коды, такие как HCPCS, хорошо отформатированы, а другие, такие как ICD, - нет (M05.73, M05.732), так как они могут различаться по длине, десятичным разрядам и формату (в некоторых документах было бы от M05.7x до M05.8x)

Я также думал о подходе NLP с машинным обучением, ноЯ не уверен, какими были бы мои функции, кроме длины слова.

Какие были бы правдоподобные подходы для этого?

Редактировать: Вот примерный отрывокдокумента:

КОДЫ ПРИМЕЧАНИЯ: Ранее для представления этого устройства использовался незарегистрированный код HCPCS C1889.Тем не менее, соответствующий код HCPCS, который описывает рассасывающееся устройство для назального имплантата, - C9749.Работа врача по размещению имплантата в носу будет оплачиваться по незарегистрированному коду CPT 30999 - Процедура не из списка, нос.Некоторые поставщики услуг могут использовать CPT 30465 для этой услуги: ремонт стеноза носового вестибулярного аппарата (например, трансплантация трансплантата, реконструкция боковой стенки носа);однако незарегистрированный код является подходящим кодом.Номер кода Описание CPT 30999 Процедура не в списке, нос HCPCS C9749 Восстановление стеноза носовой вестибулярной боковой стенки с помощью имплантата (ов) Дата происхождения: ноябрь 2018 SUR209 |8

Ожидаемый результат - Отображение обнаруженных кодов в возможные типы кодов:

C1889 (возможные типы кодов: HCPCS)

C9749 (возможные типы кодов: HCPCS)

30999 (возможные типы кодов: HCPCS)

30465 (возможные типы кодов: HCPCS)

1 Ответ

0 голосов
/ 03 апреля 2019

cTAKES

Apache cTAKES - это проект НЛП для обработки медицинского текста, который имеет предварительно обученные модели для всех видов извлечения контента и распознавания сущностей, специфичных для медицинской области. Вполне вероятно, что типы необходимых вам кодов включены в cTAKES либо как ресурс, либо как часть модели тегирования сущностей.

...