Таблица не распознается - PullRequest
0 голосов
/ 28 февраля 2019
import pandas as pd
from tabula import read_pdf
FileName="Filepath"
DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True)
print DF3

import pandas as pd
import camelot
FileName="Filepath"
tables = camelot.read_pdf(FileName,pages='1-end')
print tables

Я не могу прочитать таблицы в файлах PDF в виде информационного кадра с использованием табул, если таблицы распределены по нескольким страницам, а горизонтальные границы обрезаны, поэтому он не распознается как таблица.Как мне это решить?Могу ли я обнаружить таблицы, используя только вертикальные линии?

Пробовал также новый пакет camelot, но снова не смог прочитать столбец.

Я могу обнаружить только одну таблицу в примере pdfтаблица 2x2 не обнаружена

Пример pdf Ссылка: https://onedrive.live.com/?id=690704CAD1449D85%21105&cid=690704CAD1449D85

...