Я извлекаю текстовый абзац, за которым следует текст, такой как «НАБЛЮДЕНИЕ № 1» или «НАБЛЮДЕНИЕ № 2» в выводе из библиотеки, например PyPDF2.
Однако может быть какая-то ошибка, поэтому она может быть похожа на «НАБЛЮДЕНИЕ № 2», и я должен избегать, как «Люкс № 300», поэтому правило будет «ЕСЛИ ХАРАКТЕР, то БУДЕТ В КАПИТАЛЕ».
В настоящее время фрагмент кода Python, как
inspection_observation=pdfFile.getPage(z).extractText()
if 'OBSERVATION' in inspection_observation:
for finding in re.findall(r"[OBSERVATION] #\d+(.*?) OBSERVA'TION #\d?", inspection_observation, re.DOTALL):
#print inspection_observation;
print finding;
Пожалуйста, сообщите соответствующее регулярное выражение для этого экземпляра,