Tika- Pandas мост для экспорта содержимого PDF в Excel? - PullRequest
0 голосов
/ 01 апреля 2020

Я бы хотел Python прочитать файл PDF («Spain.pdf», содержащий 11 столбцов и 59 строк, одна из которых является заголовком) и экспортировать его содержимое в Excel.

Есть много потоков PDF-Excel здесь, но ни один из тех, с которыми я советовался, не рассматривает концепцию моста от проанализированного содержимого Tika к Pandas фреймам данных, которые записывают в Excel.

Я искал это сайт (и в других местах), поговорил с парой программистов и ознакомился с некоторыми руководствами и книгами. Я не могу R_every_FM, потому что, как новичок, я не знаю, где сосредоточиться: то есть, хочу ли я помещать sh контент в Pandas фрейм данных?

Из SO и Sweigart ( 2015) Я нашел Tika, Tabula и PyPDF2 для анализа содержимого PDF. Тика работала лучше для меня. (Приложение Tabula отлично подходит для ручных дампов, но модуль Python не работает для меня.) Я использовал следующий код:

from tika import parser
raw = parser.from_file('spain.pdf')
print(raw['content'])

, который печатает чистый контент на моей консоли.

Я пытаюсь перенести это содержимое во фрейм данных, который затем можно экспортировать в Excel через XlsxWriter (или аналогичный модуль):

import pandas as pd
dataSpain = pd.DataFrame({'Survey': ["Key","ISO","Country","Region","Province","Comarca","City","Name","Age","Gender","Hospital"]})
datatoexcel = pd.ExcelWriter("FromPython.xlsx",engine='xlsxwriter')
dataSpain.to_excel(datatoexcel, sheet_name='Sheet1')
datatoexcel.save()

Может кто-нибудь указать мне правильное направление ? Любые мысли будут оценены. Большое спасибо за ваше внимание.

Код написан на Atom 1.45 и запускается через Windows PowerShell 5.1. Среда Python v3.8.0 на ноутбуке с Microsoft Surface 2 под управлением Windows 10 Home v1903.

...