Можно ли анализатору данных PDF читать файлы PowerPoint PDF? - PullRequest
0 голосов
/ 10 июля 2019

В настоящее время я разрабатываю собственный анализатор PDF, который может читать документы различных типов с различными типами данных.Прежде чем начать, я думал о том, возможно ли чтение слайдов PowerPoint.Мой работодатель использует руководящие принципы для презентаций, которые требуют изображений и фоновых рисунков - возможно ли создать синтаксический анализатор, который сможет читать данные из этих файлов PowerPoint PDF, не мешая оформлению слайдов?

Таким образом, рабочий процесс в основном будет таким:

  1. В конце проекта отчет о проекте предоставляется в форме презентации.
  2. Презентация будет преобразована в PDF.
  3. PDF будет отправлен в мое приложение.
  4. Приложение будет читать слайды и быстро создавать отчет, ориентированный на данные.обзор.

Цель приложения - сократить объем чтения, который необходимо выполнить в значительных объемах, так как некоторые из этих презентационных отчетов могут занимать много страниц и не иметь достаточно времени длядень.

Ответы [ 2 ]

0 голосов
/ 11 июля 2019

PDF-файл PowerPoint - это не тип PDF.

В PDF-файле не будет ничего оригинального, который идентифицировал бы элементы на странице как «слайд-графику»исходящий из файла PowerPoint, например.

Вы можете попробовать создать алгоритм, который принимает решение об удалении контента из созданного PDF, но это будет сложно и кажется мне неправильным подходом.

Лучшим подходом было бы «экспортировать» PPT в текст сначала , например, в Microsoft PowerPoint Экспортируйте его в файл RTF, чтобы вы получили весь текст и использовали его напрямую или затем преобразовали его вPDF.

0 голосов
/ 10 июля 2019

Анализ PDF-файлов в структурированные данные всегда сложен, поскольку формат ориентирован на точную печать, а не на простоту редактирования или извлечения данных.

По сути, PDF-файл содержит информацию типа «есть ярлык с таким текстом в таком (x, y) положении на определенной странице» или тому подобное.

В принципе вам, скорее всего, понадобится некоторая эвристика, чтобы превратить ее в структурированные данные.

В основном это будет форма соскоба.

Поищите в своей любимой поисковой системе PDF соскоб или что-то в этом роде, и это было бы хорошим началом.

Также вы можете посмотреть на подобные посты:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...