Python PDF файлы извлечения текста - PullRequest
0 голосов
/ 14 января 2020

Я пытаюсь извлечь определенный текст из нескольких строк из файла PDF в Python.

  • VNDLY, облачная система управления работами Mason, штат Огайо, собрала 35 миллионов долларов США на финансирование серии B. AB C Венчурные предприятия , XYZ Capital и AB C Fund участвовали в раунде.

Итак, в этой строке я хотел бы получить информацию из строки в формате таблицы, как показано ниже:

NAME   FUNDING       SERIES       BOLD NAME1     BOLD NAME2      BOLD NAME3
VNDLY  $35 million   Series B     ABC Ventures   XYZ Capital     ABC Fund

Мне удалось извлечь ИМЯ, но все иначе, похоже, не собираются вместе. И поскольку таких строк несколько, становится сложнее. Буду признателен за любую помощь в этом.

\ pip install PyPDF2

import PyPDF2

import collections

from pandas import DataFrame

pdfFileObj = open('TSC.pdf', 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
numberPages = pdfReader.numPages
print(numberPages)

c = collections.Counter(range(numberPages))

#DEFINE A FUNCTION TO EXTRACT THE NAME OF THE STARTUPS AND ENTER IT INTO AN EXCEL SPREADSHEET

def startupName_TS():
    startup = []

    for i in c:
        page = pdfReader.getPage(i)
        content = page.extractText()
        new_content = content.strip()
        #print(new_content)
        my_string = new_content.replace('\n', '').replace('\r','')
        #print(my_string)
        lines = my_string.split('- ')
        #print(lines)
        for line in lines:   
            index1 = line.find(',')
            if index1 >= 0:
                startup.append(line[0:index1])
                print (line[0:index1])

    df = DataFrame({'Startup Name': startup})
    df
    df.to_excel('Venture Analysis.xlsx', sheet_name='sheet1', index=False)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...