Java Pdf Diff библиотека - PullRequest
       7

Java Pdf Diff библиотека

6 голосов
/ 20 мая 2009

Кто-нибудь знает о библиотеке Java с открытым исходным кодом, которая будет делать надежное различие текстовых частей файлов PDF?

В идеале я хотел бы что-то, что производило бы diff в форме патча.

Ответы [ 3 ]

4 голосов
/ 20 мая 2009

Извлеките PDF-текст с помощью http://incubator.apache.org/pdfbox/ и создайте diff с помощью http://code.google.com/p/google-diff-match-patch.

0 голосов
/ 28 февраля 2018

Вы можете взглянуть на xdiffweb.com. Это чистый Java-проект с открытым исходным кодом, основанный на Apache pdfbox.

0 голосов
/ 21 мая 2009

Если PDF-файлы отличаются только по тексту, вы также можете растеризовать страницы, а затем посмотреть на различия таким образом - мы используем это для вывода результатов регрессионного тестирования в нашем PDF-коде.

...