Question

Кто-нибудь знает о библиотеке Java с открытым исходным кодом, которая будет делать надежное различие текстовых частей файлов PDF?

В идеале я хотел бы что-то, что производило бы diff в форме патча.

trunkc · Answer 1 · 20 мая 2009

Извлеките PDF-текст с помощью http://incubator.apache.org/pdfbox/ и создайте diff с помощью http://code.google.com/p/google-diff-match-patch.

lumpchen · Answer 2 · 28 февраля 2018

Вы можете взглянуть на xdiffweb.com. Это чистый Java-проект с открытым исходным кодом, основанный на Apache pdfbox.

Miguel A. Friginal · Answer 3 · 21 мая 2009

Если PDF-файлы отличаются только по тексту, вы также можете растеризовать страницы, а затем посмотреть на различия таким образом - мы используем это для вывода результатов регрессионного тестирования в нашем PDF-коде.

Java Pdf Diff библиотека

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Java Pdf Diff библиотека

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы