Это сложный запрос, потому что он зависит от самого PDF (и как он был создан), может ли это быть сделано или нет.
В качестве первой попытки я бы попытался использовать собственный онлайн-конвертер PDF в HTML Adobe
http://www.adobe.com/products/acrobat/access_onlinetools.html
, а затем попробуйте исправить HTML после чего-то вроде tidy
http://tidy.sourceforge.net/
Если PDF-файлы создавались путем сканирования изображений, тогда, возможно, текст вообще не связан с ними - тогда лучшее, что вы можете сделать, это либо разрезать страницы и превратить их в документы JPG, либо использовать какое-либо программное обеспечение для распознавания текста. в самом PDF.
Я предупреждаю вас, что даже если PDF-файлы были созданы вручную и, следовательно, содержат текстовую информацию, вероятно, в процессе преобразования будет много ошибок, которые придется исправить вручную. , Я работаю над продуктом, который в основном выполняет этот процесс для корпоративных годовых отчетов и т. Д., И мы в конечном итоге решили разделить страницы на изображения в формате JPG / GIF и HTMLing, так как другие процессы, которые мы пробовали, привносили слишком много ошибок и были слишком трудоемкими чтобы исправить их все.