Question

В настоящее время я разрабатываю собственный анализатор PDF, который может читать документы различных типов с различными типами данных.Прежде чем начать, я думал о том, возможно ли чтение слайдов PowerPoint.Мой работодатель использует руководящие принципы для презентаций, которые требуют изображений и фоновых рисунков - возможно ли создать синтаксический анализатор, который сможет читать данные из этих файлов PowerPoint PDF, не мешая оформлению слайдов?

Таким образом, рабочий процесс в основном будет таким:

В конце проекта отчет о проекте предоставляется в форме презентации.
Презентация будет преобразована в PDF.
PDF будет отправлен в мое приложение.
Приложение будет читать слайды и быстро создавать отчет, ориентированный на данные.обзор.

Цель приложения - сократить объем чтения, который необходимо выполнить в значительных объемах, так как некоторые из этих презентационных отчетов могут занимать много страниц и не иметь достаточно времени длядень.

JosephA · Answer 1 · 11 июля 2019

PDF-файл PowerPoint - это не тип PDF.

В PDF-файле не будет ничего оригинального, который идентифицировал бы элементы на странице как «слайд-графику»исходящий из файла PowerPoint, например.

Вы можете попробовать создать алгоритм, который принимает решение об удалении контента из созданного PDF, но это будет сложно и кажется мне неправильным подходом.

Лучшим подходом было бы «экспортировать» PPT в текст сначала , например, в Microsoft PowerPoint Экспортируйте его в файл RTF, чтобы вы получили весь текст и использовали его напрямую или затем преобразовали его вPDF.

Haroldo_OK · Answer 2 · 10 июля 2019

Анализ PDF-файлов в структурированные данные всегда сложен, поскольку формат ориентирован на точную печать, а не на простоту редактирования или извлечения данных.

По сути, PDF-файл содержит информацию типа «есть ярлык с таким текстом в таком (x, y) положении на определенной странице» или тому подобное.

В принципе вам, скорее всего, понадобится некоторая эвристика, чтобы превратить ее в структурированные данные.

В основном это будет форма соскоба.

Поищите в своей любимой поисковой системе PDF соскоб или что-то в этом роде, и это было бы хорошим началом.

Также вы можете посмотреть на подобные посты:

Можно ли анализатору данных PDF читать файлы PowerPoint PDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можно ли анализатору данных PDF читать файлы PowerPoint PDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы