Может быть, это должны быть отдельные вопросы, по одному для каждого формата, но ...
Каковы НАДЕЖНЫЕ библиотеки (на любом языке), двоичные файлы (для любой платформы) или веб-сервисы (бесплатно или не бесплатно) для преобразование различных "текстовых" форматов в обычный текст ?
Под надежным я имею в виду почти 100% -ную способность извлекать ВСЕ текст, читаемый человеком , НЕ ИЗВЛЕКАЯ «код» или «разметку».
Под текстовыми форматами я имею в виду: все самые распространенные вещи, такие как PDF, PPT, DOC, DOCX, RTF, HTML, ".PAGES", ".KEYNOTE", ODT и т. Д. И т. Д.
Пожалуйста, предложите как пакеты / услуги, которые поддерживают многие этих форматов, так и те, которые только поддерживают один . Кроме того, существует ли программное обеспечение «стеков», которое «связывает воедино» много пакетов / служб для преобразования в текст?