Поиск офисных документов для струнного питона - PullRequest
0 голосов
/ 23 мая 2018

Я искал быстрый и относительно простой способ поиска (grep-ish) для пользовательских строк в файлах различных форматов, например, xlsx, docx, pptx, pdf с использованием Python.

Мои исследования привели меня к мысли, что не может быть удобного способа сделать это, в соответствии с одним модулем или подобным.Я вынужден использовать отдельный модуль для каждого типа файла?И если это так, то это уместно?

docx

openpyxl

pptx

slate

Я также посмотрел на формы декомпрессии, чтобы получитьк XML-файлам, содержащим фактический текст, но это кажется громоздким.Я просто хочу быть уверен, что не существует простого, унифицированного способа обработки всех этих различных типов файлов.

1 Ответ

0 голосов
/ 28 мая 2018

Ну, я в основном разобрался.В конце я решил использовать powershell в сочетании с "itextsharp.dll" для обработки файлов.Оказалось, что это проще, чем использовать переносной Python.Спасибо за ответы: -)

...