arabi c извлечение метаданных для URL и pdf с использованием python - PullRequest
0 голосов
/ 26 апреля 2020

Мне нужно использовать python для извлечения метаданных для арабского языка c pdf

Библиотечная газета в python используется для URL, но иногда автор существует, но его отображение отсутствует

from newspaper import Article
from time import mktime
from datetime import datetime
url = 'https://www.annahar.com/article/1173715-%D9%85%D8%A7%D8%B1%D9%84%D9%8A%D9%86-%D8%B3%D8%B9%D8%A7%D8%AF%D9%87-%D9%81%D9%8A-%D8%AF%D9%8A%D9%88%D8%A7%D9%86%D9%87%D8%A7-%D8%A3%D8%A8%D8%B9%D8%AF-%D9%85%D9%86-%D8%AD%D8%AF%D9%88%D8%AF-%D8%A7%D9%84%D9%88%D8%AC%D9%88%D8%AF-%D8%A7%D9%84%D9%84%D8%A7%D9%85%D8%AA%D8%B9%D8%AB%D8%B1-%D8%A7%D9%84%D8%A7%D8%A8%D8%AF%D8%A7%D8%B9%D9%8A-%D9%81%D9%8A-%D8%B4%D8%A7%D8%B9%D8%B1%D9%8A%D8%A9-%D8%A7%D9%84%D8%A5%D8%AD%D8%B3%D8%A7%D8%B3'
article = Article(url)
article.html
article.download()
article.parse()
title = article.title
date= article.publish_date
print(title)
print(date)
authors= article.authors
print(authors)
source = article.source
print(source)

Для pdf я использовал PYPDF2, но дисплей очень странный:

import PyPDF2 
def extract_information(pdf_path):
 pdfFile = PyPDF2.PdfFileReader(path,'rb')
 data = pdfFile.getDocumentInfo()
 return data

if __name__ == '__main__':
 path = 'thirteen reasons why _ jay asher.pdf'
 data=extract_information(path)
 print(data)

Дисплей:

{'/CreationDate': "D:20111014145443-04'00'", '/Creator': 'Adobe InDesign CS4 (6.0.4)', '/GTS_PDFXConformance': 'PDF/X-1a:2001', '/GTS_PDFXVersion': 'PDF/X-1:2001', '/ModDate': "D:20111014145502-04'00'", '/Producer': 'Adobe PDF Library 9.0', '/Title': '13RW Stage Play.indd', '/Trapped': '/False'}

Мне нужно знать автора

...