Веб-сервис для преобразования форматов файлов MS Office (doc, docx, ppt и т. Д.) В обычный текст? - PullRequest
0 голосов
/ 27 июля 2011

Большой контекст: мы работаем над поисковой системой портала Интранет, которая должна иметь возможность искать в ВСЕХ типах офисов: doc, docx, xls, xlsx, ppt и pptx. Имея алгоритм поиска, мы внедрили индексатор с использованием автоматизации Office; однако клиент обеспокоен тем, что это 1, подвержено ошибкам и 2, не рекомендовано Microsoft (а также не включено в их лицензию).

Я читал предыдущие ответы по этому поводу на SO, однако для этого потребовалось бы интегрировать чрезвычайно большое количество отдельных библиотек, чтобы охватить все ребра, чего у нас нет для этого.

Следовательно, мы ищем простой веб-сервис, в который мы можем отправить любой из этих документов и вернуть простой простой текстовый (или HTML, или даже PDF - у нас есть парсеры для обоих) ,

Существуют ли какие-либо услуги (бесплатные или платные), охватывающие все перечисленные выше форматы файлов?

Большое спасибо.

Ответы [ 2 ]

2 голосов
/ 07 марта 2013

Я бы предложил попробовать Apache Tika - это бесплатно и с открытым исходным кодом.Это позволяет извлекать текстовое содержимое из файловых форматов MS Office (и из других популярных форматов тоже).В комплект входит серверное приложение, которое вы можете запустить на своем собственном сервере.

1 голос
/ 27 июля 2011

Я уверен, что об услуге, однако, если вы можете управлять и развертывать три сборки .NET для DOC / DOCX, XLS / XLSX и PPT / PPTX. Тогда вы можете попробовать Aspose компоненты - Aspose.Words, Aspose.Cells и Aspose.Slides соответственно. Эти библиотеки DLL не требуют установки MS Office на вашем сервере, и они отлично работают в любой ОС Windows и в 32-битных / 64-битных средах. Вы также можете просмотреть документацию . Эти компоненты предоставляют множество дополнительных возможностей для работы с элементами документа. Пожалуйста, посмотрите, может ли это помочь в вашем сценарии.

Раскрытие информации: я работаю евангелистом-разработчиком в Aspose.

...