Как прочитать отдельный слайд из ppt, используя пакет tika в python? - PullRequest
0 голосов
/ 23 мая 2019

Я хочу сравнить данные в двух файлах pptx и показать различия, если таковые имеются, используя python.

Я пробовал с приведенным ниже кодом, но он дает все содержимое в одном файле.Невозможно отделить данные по слайдам.

Я могу прочитать все содержимое pptx с помощью tika, но мне нужно содержимое для слайдов для сравнения с другим файлом pptx.

from tika import parser
parsed = parser.from_file('act.pptx')
act =parsed['content']
act=act.strip().replace('\n',' ')

Ожидаемый результатсохранить каждый слайд один текстовый файл.Фактический результат - я получаю все данные слайдов в один текстовый файл.

...