Как извлечь структурированные данные из PDF с помощью регулярных выражений - PullRequest
0 голосов
/ 25 июня 2019

У меня есть PDF, который много раз повторяет следующее:

31-10-2018
NATIONAL
Initial Hearing
Imputed: Maynor Steven Sevilla Flores
Crime: murder
Relation of facts: murder at 10 am in the neighborhood cox 20...…

NOTE: xxxxxxxx...
NOTE2:xxxxxxxx...
DATA: xxxxxxx...

01-11-2018
NATIONAL
Initial Hearing
Imputed: James Graden 
Crime: murder
Relation of facts: murder at 11 am in the neighborhood bit 45...…

.
.
.

Я хочу реализовать код Python:

import PyPDF2
import re

PATH_DOWNLOAD_PDF = /home/Dev/Freelance/Webscrapping/test/file.pdf'
pdf_file = open(PATH_DOWNLOAD_PDF, 'rb') 
read_pdf = PyPDF2.PdfFileReader(pdf_file)
#.
#.
#.

Мне нужно прочитать PDF с обычным Pythonвыражение, чтобы получить в результате:

Ожидаемый результат: List Dict PYTHON:

[
 {
  “Date” : “31-10-2018”,
  “Judge” : “NATIONAL”,
  “Initial Hearing” : 
        {
         “imputed” : “Maynor Steven Sevilla Flores”
         “Crime” :  murder
         “Relation of facts” “murder at 10 am in the neighborhood cox 20...”
        }
 },
 {
   “Date” : “01-11-2018”,
   “Judge” : “NATIONAL”,
   “Initial Hearing” : 
        {
        “imputed” : “ames Graden”
        “Crime” :  murder
        “Relation of facts” “murder at 11 am in the neighborhood bit 45...…”
        }
 }
]

Я немного программирую, и мне нужна ваша помощь, пожалуйста

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...