Используйте Python, чтобы определить, был ли PDF создан Google Docs - PullRequest
0 голосов
/ 27 марта 2020

Я хотел бы использовать Python, чтобы узнать, был ли PDF-документ создан Google Docs. Есть ли какие-либо метаданные, которые я могу собрать с помощью PyPDF2, чтобы определить это?

1 Ответ

1 голос
/ 27 марта 2020

При выполнении pdf.getDocumentInfo() для документа, созданного в Документах Google, возвращается {'/Producer': u'Skia/PDF m83'}. Я проверил это на нескольких документах Google, и, кажется, проверить. Это имеет смысл - Skia - это проект Google , поэтому он должен использоваться для создания документов на их сервере.

Так что вы можете просто сделать:

import PyPDF2
GOOGLE_DOCS_PDF_METADATA = {'/Producer': u'Skia/PDF m83'}

def file_is_google_doc(pdf_file_path) 
    pdf = PyPDF2.PdfFileReader(pdf_file_path)
    return pdf.getDocumentInfo() == GOOGLE_DOCS_PDF_METADATA
...