История моего вопроса связана с Tesseract, бесплатным движком OCR (1985-1995 от HP, теперь хостинг в Google). Это определенно требует входной файл и выходной файл; аргумент принимает только имя файла (не поток / двоичную строку), поэтому для использования API-оболочки, такого как pytesser и / или python-tesser.py, необходимо создать временные файлы OCR. Мне, однако, нужно много изображений для распознавания текста; частая запись и удаление диска неизбежна (и, конечно, снижение производительности). Единственный выбор, о котором я могу подумать, - это изменить класс оболочки и указать временный файл на RAM-диске, что поднимает эту проблему.
Если у вас есть лучшее решение, пожалуйста, дайте мне знать.
Большое спасибо.
-M