Можно ли сгенерировать шаблон XSL-FO из PDF? - PullRequest
1 голос
/ 26 февраля 2010

Для документа PDF можно ли создать шаблон XSL-FO (FOP)?

Очевидно, это будет разовая вещь - сгенерированный шаблон будет просто отправной точкой для создания правильного шаблона, который извлекает соответствующие данные.

Для меня идеальным инструментом для этого был бы инструмент на основе Java, который должен выполняться из командной строки или с помощью задачи ANT. В противном случае это будет то, что работает на Linux и MacOS X.

1 Ответ

2 голосов
/ 02 июня 2010

Я не знаю такого инструмента.PDF без информации о структуре документа (Tagged PDF) очень похож на отсканированную страницу.Нет семантики.Вы даже не можете быть уверены, что можете угадать правильные места, где начинается или заканчивается абзац.Если у вас есть тег PDF, вы, вероятно, сможете продвинуться дальше, в зависимости от уровня детализации в структуре документа.Но я уверен, что вы никогда не получите удовлетворительный результат таким образом.IMO, вы намного быстрее изучаете XSLT и воссоздаете шаблон документа (т.е. таблицу стилей) вручную.Это обеспечивает хорошую читабельность кода, лучшую семантику и лучшие возможности для выделения общих элементов между похожими типами документов.

...