У меня есть текстовый файл, который я хочу проанализировать и поместить вопросы и варианты в список вопросов и вариантов
пример текста: [ОБНОВЛЕН ТЕКСТ ПРИМЕРА, ВКЛЮЧАЯ ВСЕ ВИДЫ ВАРИАЦИЙ В ТИПЫ ВОПРОСОВ И ОПЦИИ]
- 26 yrs Man Hbsag +ve ,hbeag +ve on routine screening ..what is next ; IM
A. observe
B. HBV DNA study\
C. Interferon
D. take liver biopsy
- Trauma è skin erythema and Partiel skin loss ,ttt: surgery
A. H2o irrigation
B. Bicarb. Irrigation
C. Surgical debridment\
- Old female, obese on diet control ,polydipsia , invest. Hba1c 7.5 ,all (random,
Fasting, post prandial ) sugar are mild elevated urine ketone (+) ttt: IM
A. Insulin “ ketonuria “\
B. pioglitazone
C. Thiazolidinediones
D. fourth i forgot (not Metformin nor sulfonylurea)
- Day to day variation of this not suitable for patients under warfarin therapy: IM
A. retinols
B. Fresh fruits and vegitables
C. Meet and paultry\
D. Old cheese
Я новичок в python и особенно новичок в регулярных выражениях. Попытка найти регулярное выражение, которое найдет предложения, начинающиеся с '-' и когда в новой строке стоит 'A'. , нарежьте его перед буквой А. и поместите вопросы в список. Примечание. Некоторые вопросы состоят из двух строк.
Также регулярное выражение для извлечения каждого набора параметров в список. Итак, конечный результат будет:
question list = ['- 26 yrs Man Hbsag +ve ,hbeag +ve on routine screening ..what is next ; IM','- Old female, obese on diet control ,polydipsia , invest. Hba1c 7.5 ,all (random,Fasting, post prandial ) sugar are mild elevated urine ketone (+) ttt:IM ','etc','and so on']
options list = [['A. observe','B. HBV DNA study\','C. Interferon','D. take liver biopsy'],['A. H2o irrigation\','B. Bicarb. Irrigation','C. Surgical debridment',[['A. Something Else','B. Something Else',......,'D. ']],[etc]]
Im Предполагаю, что это было бы немного сложно, но любая помощь с частью регулярного выражения или даже начало было бы замечательно. У меня есть текстовый файл с 1000 такими вопросами и вариантами, которые повторяются вот так, и в идеале я хотел бы извлечь все вопросы и варианты.
import re
with open("julysmalltext.txt") as file:
content = file.read()
question_list = re.findall(r'', content)
options_list = re.findall(r'', content)