Я хотел бы проанализировать медицинские документы и идентифицировать / классифицировать слова в них как различные медицинские коды, такие как HCPCS, ICD, CPT, APC и т. Д. Я думаю о лучшем способе сделать это;Я пробовал регулярные выражения, но они дают мне много ложных срабатываний (например, коды HCPCS, как правило, либо 5 цифр, либо 4 цифры + 1 буква), но это обнаруживает такие вещи, как 10000 мг, а другие коды не могут бытьтак же просто, как проверка 4 цифр, поскольку во многих документах это происходит по годам.
Некоторые коды, такие как HCPCS, хорошо отформатированы, а другие, такие как ICD, - нет (M05.73, M05.732), так как они могут различаться по длине, десятичным разрядам и формату (в некоторых документах было бы от M05.7x до M05.8x)
Я также думал о подходе NLP с машинным обучением, ноЯ не уверен, какими были бы мои функции, кроме длины слова.
Какие были бы правдоподобные подходы для этого?
Редактировать: Вот примерный отрывокдокумента:
КОДЫ ПРИМЕЧАНИЯ: Ранее для представления этого устройства использовался незарегистрированный код HCPCS C1889.Тем не менее, соответствующий код HCPCS, который описывает рассасывающееся устройство для назального имплантата, - C9749.Работа врача по размещению имплантата в носу будет оплачиваться по незарегистрированному коду CPT 30999 - Процедура не из списка, нос.Некоторые поставщики услуг могут использовать CPT 30465 для этой услуги: ремонт стеноза носового вестибулярного аппарата (например, трансплантация трансплантата, реконструкция боковой стенки носа);однако незарегистрированный код является подходящим кодом.Номер кода Описание CPT 30999 Процедура не в списке, нос HCPCS C9749 Восстановление стеноза носовой вестибулярной боковой стенки с помощью имплантата (ов) Дата происхождения: ноябрь 2018 SUR209 |8
Ожидаемый результат - Отображение обнаруженных кодов в возможные типы кодов:
C1889 (возможные типы кодов: HCPCS)
C9749 (возможные типы кодов: HCPCS)
30999 (возможные типы кодов: HCPCS)
30465 (возможные типы кодов: HCPCS)