Кто-нибудь знает о библиотеке Java с открытым исходным кодом, которая будет делать надежное различие текстовых частей файлов PDF?
В идеале я хотел бы что-то, что производило бы diff в форме патча.
Извлеките PDF-текст с помощью http://incubator.apache.org/pdfbox/ и создайте diff с помощью http://code.google.com/p/google-diff-match-patch.
Вы можете взглянуть на xdiffweb.com. Это чистый Java-проект с открытым исходным кодом, основанный на Apache pdfbox.
Если PDF-файлы отличаются только по тексту, вы также можете растеризовать страницы, а затем посмотреть на различия таким образом - мы используем это для вывода результатов регрессионного тестирования в нашем PDF-коде.