Извлеките каждый абзац из многостраничного PDF в каждую ячейку Excel, используя python - PullRequest
1 голос
/ 09 июля 2020

Я получаю только данные, но не в формате.

Извлекайте каждый абзац из многостраничного PDF-файла в каждую ячейку Excel, используя python.

У меня есть 1000 многостраничных PDF-файлов, чтобы быть извлеченным из файла Excel 1000 в формате. Как определить начало и конец каждого абзаца?

    import PyPDF2 as p

    PDFfilename = "abc.pdf"

    pdfread = p.PdfFileReader(open(PDFfilename, "rb"))

    f = open("1.xls", "x")
    i = 0
    while i < pdfread.getNumPages():
          Allinfo = pdfread.getPage(i)
          f.writelines(Allinfo.extractText())
          i = i + 1
      f.close()
...