Я использую OCR для чтения изображений и PDF-файлов, а затем пытаюсь извлечь из него определенные числа. В некоторых случаях алгоритмы OCR читают ноль как букву «o».
OCR дало мне эту строку:
Siabicbnenl| 033-7 | _o3300.81086 42000.000002 20852.301017 1 82510000030694
Prerfasa afesad
Если бы OCR прочитал это правильно, он бы выглядел так :
Siabicbnenl| 033-7 | _03300.81086 42000.000002 20852.301017 1 82510000030694
Prerfasa afesad
Я хочу поймать это 03300.81086 42000.000002 20852.301017 1 82510000030694
Мой шаблон (?s)\d{5}\.?\d{5}.*?\d{5}\.?\d{6}.*?\d{5}\.?\d{6}.*?\d.*?\d{14}
работал бы нормально, если бы OCR прочитал его правильно, но здесь я связался с новым ситуация:
OCR перепутала ноль с «o»
Есть ли способ исправить мой шаблон, чтобы также рассматривать «o» как ноль, или мне нужно будет сделать if 'didnt find anything': str.replace("o",0)
и снова запустить?