Одна вещь, которую я сделал, - это вызов GNU Parallel для запуска как можно большего количества экземпляров Tess * в многоядерной системе для многостраничных документов, преобразованных в одностраничные изображения.
Это короткая программа, легко компилируемая на большинстве дистрибутивов Linux (я использую OpenSuSE 11.4).
Вот командная строка, которую я использую:
/usr/local/bin/parallel -j 4 \
/usr/local/bin/tesseract -psm 1 -l eng {} {.} \
::: /tmp/tmp/*.jpg
Параметр -j 4 указывает параллельному использованию всех четырех процессорных ядер, имеющихся у меня на сервере.
Если вы запустите это, а в другом терминале сделаете «top», вы увидите до четырех процессов одновременно, пока он не перебирает все JPG в указанном каталоге.
Ваша нагрузка никогда не должна превышать количество ядер ЦП в вашей системе (если вы используете Linux).
Вот ссылка на GNU Parallel:
http://www.gnu.org/software/parallel/