Извлечь текст из файла PowerPoint (.ppt или .pptx)? - PullRequest
1 голос
/ 20 мая 2009

В настоящее время я использую комбинацию макросов OpenOffice и программы pdf2text для извлечения текста и хотел бы найти более простой и эффективный способ извлечения текста из файла PowerPoint.

Я пытался использовать библиотеку Apache POI, но мне не повезло, я столкнулся с многочисленными исключениями в библиотеке при попытке обработать файлы, которые я просматриваю, и не особо хочу просеивать исходный код библиотека.

Есть ли простой способ сделать это без использования вышеупомянутой библиотеки?

Ответы [ 3 ]

2 голосов
/ 20 мая 2009

Если у вас есть MS Office и вы сохраняете PPT в RTF (Rich Text Format), он содержит только текст из презентации. Затем вы можете открыть файл в любом редакторе, который понимает файлы RTF, и сохранить его как текстовый (TXT) файл.

Я ожидаю, что это будет работать и в Open Office.

Поскольку вы говорите об API, возможно, это не тот путь, который вам нужен, но, возможно, он даст вам новые идеи, как туда добраться. Скажем, вы используете несколько макросов для поэтапного преобразования ...

Редактировать: мне стало любопытно и я сделал короткий поиск в Google

Это то, что я нашел на на одной из страниц www.openoffice.org

Как указали люди в этой теме, извлечение текста из ОО документ не сложный, так как это просто архивированный XML, который можно проанализировать с помощью скрипт на Perl Проблема заключается в получении документов Microsoft Powerpoint в в первую очередь в формате zip XML.

Я обнаружил, что File -> Wizards -> Document Convertor делает именно это. Просто скажите, что вы хотите конвертировать документы Powerpoint, а не шаблоны, укажите его в исходный каталог и где вы хотите выплюнуть результат, и вы в отъезде.

Затем я нашел unzip -p $ file.sxi content.xml | perl -p -e "s / <[^>] > / \ n / g; s / + //; s / \ n \ n / \ n / g;" -w

довольно хорошо работает для извлечения текста.

Извините, у меня нет Open Office, чтобы попробовать что-то подобное.

1 голос
/ 16 августа 2012
С файлами

pptx сравнительно легко работать, потому что они просто упакованы в xml - вы можете просто разархивировать их, а затем убрать все теги xml из содержимого файлов в подкаталоге ppt / slides разархивированного материала, получая большую часть соответствующего текста.

ppt-файлы - это совершенно другая игра, и процесс становится еще более болезненным, потому что канонический инструмент, catppt из пакета catdoc, подвержен переполнению буфера, что делает его практически бесполезным (он вызывает ошибки при большом проценте ppt файлы).

0 голосов
/ 23 апреля 2019

Файл LibreOffice-5 - Экспорт - HTML включает в себя как содержание слайдов, так и заметки докладчика. Затем откройте файл .html в Firefox или другом браузере и выберите Файл - Сохранить страницу как - Текстовый файл (или утилиту, например pandoc -o file.txt file.html).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...