Заголовки не извлекаются из PDF при извлечении данных таблицы из PDF с помощью camelot - PullRequest
0 голосов
/ 08 ноября 2018

Я использую camelot для извлечения данных таблицы, однако заголовок не извлекается как часть PDF.

Прикрепление цели Ссылка в формате PDF ниже и таблица целей находятся на страницах 3 и 4, которые нужно извлечь.

https://drive.google.com/file/d/1xniTIwpnNIdA_k4xvEARlVH97Lk-K2Yr/view?usp=sharing

Одна из таблиц выглядит ниже enter image description here

Я видел документацию по camelot и думаю, что проблема связана с «Обнаружение коротких линий»

https://camelot -py.readthedocs.io / о / ведущий / пользователь / advanced.html # обнаруживающих-короткие строки

Однако решить проблему не удалось, настроив параметр line_size_scaling .

Пожалуйста, помогите.

1 Ответ

0 голосов
/ 09 ноября 2018

Я построил обнаруженную границу таблицы на странице 3, используя $ camelot -p 3 lattice -plot contour 007.pdf. Похоже, что Camelot не включает строку заголовка в обнаруженной границе таблицы [ошибка 1] (см. Изображение ниже). Затем я попытался использовать аргумент ключевого слова table_areas с flavor='lattice', но затем он не включал строки в указанную границу таблицы [ошибка 2]. Я добавил их в систему отслеживания проблем как # 200 и # 201 .

Вы можете все еще использовать ключевое слово table_areas с flavor='stream', чтобы получить таблицу.

Использование CLI: $ camelot -p 3 --output 007.csv --format csv stream -T 60,770,520,400 007.pdf

Использование API: tables = camelot.read_pdf('007.pdf', pages='3', flavor='stream', table_areas=['60,770,520,400'])

Вы можете найти координаты границы таблицы, используя шаги, описанные здесь: https://camelot -py.readthedocs.io / en / master / user / advanced.html # visual-debugging

Надеюсь, это поможет!

enter image description here

...