Большой контекст: мы работаем над поисковой системой портала Интранет, которая должна иметь возможность искать в ВСЕХ типах офисов: doc, docx, xls, xlsx, ppt и pptx. Имея алгоритм поиска, мы внедрили индексатор с использованием автоматизации Office; однако клиент обеспокоен тем, что это 1, подвержено ошибкам и 2, не рекомендовано Microsoft (а также не включено в их лицензию).
Я читал предыдущие ответы по этому поводу на SO, однако для этого потребовалось бы интегрировать чрезвычайно большое количество отдельных библиотек, чтобы охватить все ребра, чего у нас нет для этого.
Следовательно, мы ищем простой веб-сервис, в который мы можем отправить любой из этих документов и вернуть простой простой текстовый (или HTML, или даже PDF - у нас есть парсеры для обоих) ,
Существуют ли какие-либо услуги (бесплатные или платные), охватывающие все перечисленные выше форматы файлов?
Большое спасибо.