получение чистого текста из документа с помощью c # - PullRequest
3 голосов
/ 23 ноября 2010

Как я могу получить чистую строку из документа, исключая все изображения или таблицы или рисунки.Я буду манипулировать и создавать список слов этих документов.Поэтому мне нужно просто текстовую часть документов, используя C #

Ответы [ 2 ]

1 голос
/ 23 ноября 2010

Возможно, вам нужно посмотреть на IFilters . Именно так большинство поисковых индексаторов получают доступ к простому тексту из документов в Windows. Вот учебник и пример проекта с исходным кодом, который можно использовать для извлечения текста из документов Office, PDF-файлов и т. Д.

Вам просто нужно убедиться, что на вашей машине установлены правильные фильтры IFilter. Microsoft предоставляет бесплатный набор фильтров для офисных документов . Adobe также предоставляет фильтр, но это полный мусор. Если вы можете, попробуйте FoxIt IFilter , это намного лучше.

0 голосов
/ 23 ноября 2010

Вы должны поддерживать определенный формат каждого документа;универсального метода чтения всех форматов документов не существует.
Например, файлы документов Microsoft Office Word должны интерпретироваться собственной библиотекой, а не файлами документов OpenOffice.

...