Я пытаюсь прочитать таблицы из файла PDF. Когда я попробовал несколько PDF-файлов вместе с PDF-файлами, созданными вручную, они работали успешно.
import tabula
df = tabula.read_pdf("test.pdf", encoding='utf-8', spreadsheet=True)
print df
Sep 06, 2018 7:00:34 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO: To get higher rendering speed on JDK8 or later,
Sep 06, 2018 7:00:34 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO: use the option -Dsun.java2d.cmm=sun.java2d.cmm.kcms.KcmsServiceProvider
Sep 06, 2018 7:00:34 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO: or call System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider")
Test Karim
0 1 2
Но когда я пытаюсь прочитать мой фактический файл PDF, из которого я хочу извлечь таблицы,
Это не дает с этим предупреждением
Sep 06, 2018 7:01:46 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO: To get higher rendering speed on JDK8 or later,
Sep 06, 2018 7:01:46 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO: use the option -Dsun.java2d.cmm=sun.java2d.cmm.kcms.KcmsServiceProvider
Sep 06, 2018 7:01:46 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO: or call System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider")
Sep 06, 2018 7:01:47 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont <init>
WARNING: Using fallback font 'LiberationSerif' for 'TimesNewRomanPSMT'
None
Я использую https://github.com/chezou/tabula-py для справки.