Я OCRing 10k счетов-фактур для обучения AI и, как оказалось, использование Tesseract -psm 4, экспортированного как txt, идеально подходит для этого, поскольку он предоставляет каждую отдельную позицию в виде одной непрерывной строки текста на странице, включая все столбцы.
Пример:
Product Description Quantity Unit Price Total
1001 Boots 2 $ 100.00 $ 200.00
Единственным недостатком является то, что -psm 4 не использует OSD (определение ориентации и сценариев) и будет принимать только те счета, которые уже естьправильно ориентирован.Чтобы решить эту проблему, мне сначала нужно будет запустить -psm 0, чтобы получить отдельные файлы .osd с ориентацией каждого файла / страницы, а затем выполнить команду convert -rotate 90 для файлов .TIF, где ориентация счета-фактуры еще не верна.
Мой вопрос : Могу ли я как-то создать свой собственный -psm 4, комбинируя извлечение текста на всю ширину с ориентацией (и обнаружением скрипта) из -psm 1?
ИлиЕсть ли другой способ вызвать OSD или обеспечить полную ширину страницы, как с -psm 4?
Спасибо.