Я искал в Google все выше и ниже, и не могу найти способ получить внутреннюю информацию в старом стиле Microsoft PPT, используя Python. Более новые - просто zip-файл, и есть множество способов получить к нему доступ, открыв файл xml в zip-файле ppt. Не так для старой школы "бинарный" PPT.
Под старой школой я имею в виду следующее: «Формат двоичных файлов Microsoft PowerPoint с расширением .ppt, называемый здесь PPT, был форматом по умолчанию, используемым для документов в Microsoft PowerPoint из PowerPoint 97 (выпущен в 1997) через Microsoft Office 2003. "
Я застрял в устаревшей системе, использующей 2.7, поэтому я не могу использовать что-то вроде hachoir (что, я полагаю, сделает работу в python 3).
Что странно в этом, так это то, что я не могу поверить, что версия 2.7 была когда-то, когда использовались эти двоичные форматы файлов Microsoft, и нечего в них разбираться. Может быть, я просто не могу использовать правильные условия поиска Google.
Любая помощь очень ценится. Спасибо!
PS Мне приходится иметь дело буквально с тысячами ppt-файлов, поэтому открывать их по одному и преобразовывать их в новый формат PPTX невозможно.