У меня есть PDF-документ, в котором есть информация, представленная в таблицах.
Как я могу преобразовать его в html или xml или текст, чтобы читать эти таблицы как текст?
Есть ли хорошие программы?
И Perl-модули, и .Net-классы хороши. Может быть, хорошее исполняемое консольное приложение?
XMLFile = new PDFTOXML('file.pdf');
String[] StrArray = XMLFile.getText();
Примерно так.
Лучший способ - это умение получать таблицы из XML.
Спасибо!