Чтение содержимого файла с использованием C # - PullRequest
2 голосов
/ 22 апреля 2009

Я хочу прочитать содержимое файлов следующих типов, используя C #:

  1. RTF
  2. PDF
  3. HTML
  4. MS Word

Существует ли какой-либо общий API в .Net для чтения всех типов файлов?

Ответы [ 3 ]

2 голосов
/ 22 апреля 2009

Нет встроенной поддержки для чтения большинства файлов этих типов. HTML - это простой текст, поэтому вы можете использовать System.IO/StreamReader для его чтения, но вы должны проанализировать его самостоятельно.

Существуют сторонние компоненты, которые будут читать эти типы файлов, но я не уверен, есть ли один полностью охватывающий компонент.

Я полагаю, что для PDF iTextSharp позволяет читать.

Для RTF / Word вы можете использовать Первичные сборки взаимодействия

1 голос
/ 22 апреля 2009

Я использовал Aspose , прежде чем это очень мощный продукт, он достаточно дорогой, поэтому рекомендую его только в том случае, если вашему приложению также необходимо создать новые документы word / pdf / rtf.

Я согласен с другими комментариями по поводу использования System.IO для чтения файлов HTML.

0 голосов
/ 22 апреля 2009

Если вы собираетесь полнотекстовый индекс данных, посмотрите на Lucene , он может обрабатывать эти типы файлов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...