Я получаю только данные, но не в формате.
Извлекайте каждый абзац из многостраничного PDF-файла в каждую ячейку Excel, используя python.
У меня есть 1000 многостраничных PDF-файлов, чтобы быть извлеченным из файла Excel 1000 в формате. Как определить начало и конец каждого абзаца?
import PyPDF2 as p
PDFfilename = "abc.pdf"
pdfread = p.PdfFileReader(open(PDFfilename, "rb"))
f = open("1.xls", "x")
i = 0
while i < pdfread.getNumPages():
Allinfo = pdfread.getPage(i)
f.writelines(Allinfo.extractText())
i = i + 1
f.close()