PDF, PPT, DOC и т. Д. В текстовом формате - PullRequest
0 голосов
/ 02 марта 2012

Может быть, это должны быть отдельные вопросы, по одному для каждого формата, но ...

Каковы НАДЕЖНЫЕ библиотеки (на любом языке), двоичные файлы (для любой платформы) или веб-сервисы (бесплатно или не бесплатно) для преобразование различных "текстовых" форматов в обычный текст ?

Под надежным я имею в виду почти 100% -ную способность извлекать ВСЕ текст, читаемый человеком , НЕ ИЗВЛЕКАЯ «код» или «разметку».

Под текстовыми форматами я имею в виду: все самые распространенные вещи, такие как PDF, PPT, DOC, DOCX, RTF, HTML, ".PAGES", ".KEYNOTE", ODT и т. Д. И т. Д.

Пожалуйста, предложите как пакеты / услуги, которые поддерживают многие этих форматов, так и те, которые только поддерживают один . Кроме того, существует ли программное обеспечение «стеков», которое «связывает воедино» много пакетов / служб для преобразования в текст?

Ответы [ 4 ]

0 голосов
/ 14 мая 2014

Вы можете попробовать Извлечь текст .

Из описания: «Извлечь текст из документов, таких как файлы PDF и Microsoft Word. Он сохранит извлеченный текст в файл. Работает с .pdf, .doc, .docx, .xls, .xlsx, .ppt, и многое другое. " Требуется Microsoft.NET Framework 4.0.

0 голосов
/ 04 марта 2012

В Java инструментарий Apache Tika обнаруживает и извлекает метаданные и структурированный текстовый контент из различных документов с использованием существующих библиотек синтаксического анализатора.

0 голосов
/ 14 апреля 2012

Если вы используете Ruby, взгляните на Yomu .Это оболочка для Apache TIKA и поддерживает различные форматы документов, включая следующие:

  • Microsoft Office OLE 2 и форматы Office Open XML (.doc, .docx,.xls, .xlsx, .ppt, .pptx)
  • OpenOffice.org Форматы OpenDocument (.odt, .ods, .odp)
  • Форматы Apple iWorks
  • Rich Text Format(.rtf)
  • Формат переносимого документа (.pdf)
0 голосов
/ 02 марта 2012

http://www.filebuzz.com/files/Ascii_Convert/1.html <- эта ссылка приведет вас к списку конвертеров, которые могут конвертировать PDF и другие типы файлов в формат ASCII (простой текст). Для документов Word вы можете сделать это без программного обеспечения. Например, для документов Word, когда вы нажимаете «Сохранить как», открывается диалоговое окно с раскрывающимся списком «Сохранить как тип». Выберите «Обычный текст * .txt», и он сохранит ваш файл в виде простого текста. Удачи! </p>

...