Я изменил последнюю версию (снимок 1.8.0) для запуска в Google AppEngine. Пришлось отключить один юнит-тест, но он отлично работает для простого извлечения текста.
Следуя простому подходу try-fail-fix, мне пришлось изменить всего 5 файлов. Довольно выполнимо.
Вам также придется явно использовать RandomAccessBuffer, как объяснил Фабрицио.
Для очень ленивых, вот скомпилированный jar, зависимости для извлечения текста и патч. Обратите внимание, что это может не работать для каждого варианта использования (т.е. извлечение на основе прямоугольника). Использовал его для извлечения текста всей страницы.
https://docs.google.com/folder/d/0B53n_gP2oU6iVjhOOVBNZHk0a0E/edit