Есть ли хороший строгий конвертер PDF в XHTML? - PullRequest
3 голосов
/ 10 марта 2009

Это в основном все в названии, мне нужно взять кучу больших PDF-файлов и иметь их в строгом XHTML 1.0, close - это достаточно хорошо, тогда я могу их почистить. Спасибо

1 Ответ

2 голосов
/ 11 марта 2009

Это сложный запрос, потому что он зависит от самого PDF (и как он был создан), может ли это быть сделано или нет. В качестве первой попытки я бы попытался использовать собственный онлайн-конвертер PDF в HTML Adobe

http://www.adobe.com/products/acrobat/access_onlinetools.html

, а затем попробуйте исправить HTML после чего-то вроде tidy

http://tidy.sourceforge.net/

Если PDF-файлы создавались путем сканирования изображений, тогда, возможно, текст вообще не связан с ними - тогда лучшее, что вы можете сделать, это либо разрезать страницы и превратить их в документы JPG, либо использовать какое-либо программное обеспечение для распознавания текста. в самом PDF.

Я предупреждаю вас, что даже если PDF-файлы были созданы вручную и, следовательно, содержат текстовую информацию, вероятно, в процессе преобразования будет много ошибок, которые придется исправить вручную. , Я работаю над продуктом, который в основном выполняет этот процесс для корпоративных годовых отчетов и т. Д., И мы в конечном итоге решили разделить страницы на изображения в формате JPG / GIF и HTMLing, так как другие процессы, которые мы пробовали, привносили слишком много ошибок и были слишком трудоемкими чтобы исправить их все.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...