Мое приложение позволяет пользователям загружать PDF-файлы.Файлы должны выглядеть относительно одинаково и быть вариантами того же формата.Я понимаю, что PDF-файлы могут иногда содержать вредоносный контент - например, Javascript, который будет выполняться при открытии в Adobe Reader или аналогичном.
Я видел несколько пакетов в Интернете, например PDFiD, которые помогают вам взглянуть напотенциально сомнительные PDF-файлы.Похоже, этот позволяет вам увидеть все основные типы контента.Мой текущий мыслительный процесс состоит в том, чтобы получить представление о том, какие типы содержимого должны содержать мои документы, а затем заблокировать загрузку файлов, если они имеют необычное содержимое.
Существует ли простой способ использования Python для автоматической очистки PDF-файлавредоносного контента, удалив весь исполняемый код, который он может содержать?Я знаю, что есть формат PDF / A, который допускает что-то подобное, но есть ли такой пакет, как PyPDF2, который имеет функцию очистки?