Мне удается использовать pytesseract для преобразования изображения счета в текст.
Многострочная строка выглядит следующим образом:
Receipt No: 20191220.001
Date: 20 December 2019
Invoice amount: $400.00
Я хотел бы извлечь номер счета, только номер (то есть: 20191220.001) с использованием подстроки. Мне удается получить начальный индекс через index = string.find('Receipt No: ')
, но когда я использую функцию подстроки для извлечения числа print(string[index:])
, я получил следующий результат:
20191220.001
Date: 20 December 2019
Invoice amount: $400.00
Но я хотел извлечь только первую строку. Номера счетов-фактур не определяются только из 12 символов, их может быть больше или меньше в зависимости от поставщика. Как мне извлечь только номер счета? Я делаю это для автоматизации процесса учета.