Библиотека ASP.NET для извлечения простого текста из форматов файлов Open XML - PullRequest
4 голосов
/ 06 мая 2010

Существует ли уже существующая библиотека для извлечения файлов в формате Open XML в формате Open XML (например, docx, pptx и xlsx)?

Мне требуется это для заполнения индекса lucene.net.

Я нашел этот пример, который извлекает текст из docx , и кажется, что он работает нормально. Но прежде чем строить собственное решение на основе этого, мне было интересно, есть ли что-то уже доступное для других форматов файлов?

Ответы [ 3 ]

1 голос
/ 09 июля 2010

Прежде чем тратить деньги, возможно, стоит взглянуть на интерфейс IFilter - они были разработаны для того, чтобы делать именно то, что вы хотите.

http://msdn.microsoft.com/en-us/library/ms691105

http://www.codeproject.com/KB/cs/IFilter.aspx

(некоторые ссылки внизу ссылки на codeprject).

MS предоставляет IFilters для офисных типов файлов. http://www.microsoft.com/downloads/details.aspx?familyid=60c92a37-719c-4077-b5c6-cac34f4227cc&displaylang=en

Я знаю, что мы используем эту технологию, чтобы позволить нам индексировать PDF-файлы, используя Lucene, но я не написал реальный код и, боюсь, не могу быть очень полезным.

Если ваш Google-фу сильный, я уверен, что вы можете найти больше примеров использования IFilters, чтобы делать именно то, что вы хотите.

0 голосов
/ 06 марта 2015

Вы можете попробовать Toxy, инфраструктуру извлечения текста / данных с открытым исходным кодом для .NET. На данный момент он поддерживает xls, xlsx, doc, docx. Он будет поддерживать pptx в версии 1.5 очень скоро.

Для получения подробной информации, вы можете проверить здесь

0 голосов
/ 27 июня 2010

смотрите aspose.com, у них есть хорошая библиотека для работы с ppt и pptx.

...