Чтение таблицы из PDF с использованием tabula выдает предупреждение о шрифте - PullRequest
0 голосов
/ 06 сентября 2018

Я пытаюсь прочитать таблицы из файла PDF. Когда я попробовал несколько PDF-файлов вместе с PDF-файлами, созданными вручную, они работали успешно.

import tabula
df = tabula.read_pdf("test.pdf", encoding='utf-8', spreadsheet=True)
print df

Sep 06, 2018 7:00:34 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO: To get higher rendering speed on JDK8 or later,
Sep 06, 2018 7:00:34 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO:   use the option -Dsun.java2d.cmm=sun.java2d.cmm.kcms.KcmsServiceProvider
Sep 06, 2018 7:00:34 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO:   or call System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider")
   Test  Karim
0     1      2

Но когда я пытаюсь прочитать мой фактический файл PDF, из которого я хочу извлечь таблицы, Это не дает с этим предупреждением

Sep 06, 2018 7:01:46 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO: To get higher rendering speed on JDK8 or later,
Sep 06, 2018 7:01:46 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO:   use the option -Dsun.java2d.cmm=sun.java2d.cmm.kcms.KcmsServiceProvider
Sep 06, 2018 7:01:46 PM org.apache.pdfbox.pdmodel.graphics.color.PDDeviceRGB suggestKCMS
INFO:   or call System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider")
Sep 06, 2018 7:01:47 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont <init>
WARNING: Using fallback font 'LiberationSerif' for 'TimesNewRomanPSMT'
None

Я использую https://github.com/chezou/tabula-py для справки.

...