Я пытаюсь извлечь определенный текст из нескольких строк из файла PDF в Python.
- VNDLY, облачная система управления работами Mason, штат Огайо, собрала 35 миллионов долларов США на финансирование серии B. AB C Венчурные предприятия , XYZ Capital и AB C Fund участвовали в раунде.
Итак, в этой строке я хотел бы получить информацию из строки в формате таблицы, как показано ниже:
NAME FUNDING SERIES BOLD NAME1 BOLD NAME2 BOLD NAME3
VNDLY $35 million Series B ABC Ventures XYZ Capital ABC Fund
Мне удалось извлечь ИМЯ, но все иначе, похоже, не собираются вместе. И поскольку таких строк несколько, становится сложнее. Буду признателен за любую помощь в этом.
\ pip install PyPDF2
import PyPDF2
import collections
from pandas import DataFrame
pdfFileObj = open('TSC.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
numberPages = pdfReader.numPages
print(numberPages)
c = collections.Counter(range(numberPages))
#DEFINE A FUNCTION TO EXTRACT THE NAME OF THE STARTUPS AND ENTER IT INTO AN EXCEL SPREADSHEET
def startupName_TS():
startup = []
for i in c:
page = pdfReader.getPage(i)
content = page.extractText()
new_content = content.strip()
#print(new_content)
my_string = new_content.replace('\n', '').replace('\r','')
#print(my_string)
lines = my_string.split('- ')
#print(lines)
for line in lines:
index1 = line.find(',')
if index1 >= 0:
startup.append(line[0:index1])
print (line[0:index1])
df = DataFrame({'Startup Name': startup})
df
df.to_excel('Venture Analysis.xlsx', sheet_name='sheet1', index=False)