Question

В .Net, как лучше всего извлечь весь текст из нескольких двоичных форматов файлов: PDF, Word, Excel и PowerPoint.

Его не нужно форматировать, просто большой дамп текста в файле.

Код был бы отличным, но мне просто нужно указать на некоторые лучшие практики или шаблоны на нем.

BFree · Answer 1 · 15 января 2010

Я удивлен, что никто не упомянул IFilters . IFilters - это то, что Microsoft использует для индексирования документов в Windows. Вам нужно будет поискать IFilter для конкретных форматов, которые вы ищете, но вы должны найти большинство того, что вам нужно. Хотя предостережение: IFilters не идеальны. У них есть проблемы .....

Вот статья CodProject, с которой можно начать: http://www.codeproject.com/KB/cs/IFilter.aspx

Nick · Answer 2 · 15 января 2010

Выезд Apache Tika .

Поддерживает:

Microsoft Excel
Microsoft Word
Microsoft PowerPoint
Microsoft Visio
Microsoft Outlook
Формат переносимого документа (PDF)
OpenDocument
Простой текст
Rich Text Format
сжатие gzip
сжатие bzip2
MP3 Audio
MIDI аудио
Волновое аудио
XML
HTML
Файлы классов Java
Java jar архивы
tar архив
ZIP архив

Michael Baldry · Answer 3 · 15 января 2010

Возможно, вам придется реализовать разные способы обработки файлов каждого типа. Существует множество примеров кода для чтения этих форматов с использованием взаимодействия с офисом и т. Д. Затем вы можете написать метод, который проверяет первые несколько байтов, чтобы определить, какой формат документа, или расширение и отправлять его конкретному читатель для этого типа документа.

Joey · Answer 4 · 15 января 2010

Ну, так же, как в любом другом языке / среде: Понимать формат файла, достаточный для извлечения строк.

И да, для многих форматов файлов это означает, что вы должны написать хотя бы половину парсера для этого формата. PDF особенно неприглядный, так как нет пробелов как таковых; это просто соглашение о том, как далеко друг от друга находятся глифы; Более того, PDF может содержать сжатые потоки, поэтому простой поиск печатаемых строк в файле не даст ничего полезного.

Естественно, вы можете искать библиотеку или другой инструмент, который уже делает это. Я видел хранилище документов, которое просто передавало файлы PDF через pdf2ascii и передавало полученный текст в Lucene.

BlueRaja - Danny Pflughoeft · Answer 5 · 15 января 2010

Посмотрите на Office Interop, используя .Net для Office. Для PDF см. здесь .

Как извлечь текст из определенных двоичных форматов файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь текст из определенных двоичных форматов файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов