Лучшая конфигурация оборудования для использования Pytesseract - PullRequest
0 голосов
/ 25 февраля 2020

Привет! Я пытаюсь извлечь текст из тысяч PDF-файлов с изображениями с помощью pytessract, и, поскольку он работает очень медленно.

Мне было интересно, что было бы идеальной облачной конфигурацией, чтобы выполнять работу очень быстро. Меньше дня работы. Просто чтобы дать порядок, у меня есть 4000 PDF 40 страниц каждая с текстом. Большое спасибо.

...