ayushi tripathi 03 мая 2020 60

Как извлечь таблицу из PDF в Python DataFrame

ayushi tripathi / 03 мая 2020

Я пытаюсь извлечь таблицы из pdf, используя этот код:

import os
import tabula
from PyPDF2 import PdfFileReader as pd

def extract2(path):
    df=tabula.read_pdf(path)
    print(df.head())

dir_name=os.getcwd()
suffix='.pdf'
basefilename='Final Report'
path=os.path.join(dir_name,basefilename + suffix)

extract2(path)

Ошибка получения:

tabula.errors.JavaNotFoundError: `java` command is not found from this Python process.Please ensure Java is installed and PATH is set for java

Я хочу использовать его в Python. Зачем мне нужно Java?

...