Question

Я использую Camelot для чтения полных PDF-файлов и извлечения примерно 112 атрибутов из каждого.

Я использую области таблицы для извлечения атрибутов

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38, 340 ,50, 328'])

Проблема в том, что область таблицы не является постоянной для одного и того же атрибута во всех документах. Иногда я мог бы найти тот же атрибут на несколько пикселей вниз в координатах x или y в другом документе.

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38,350,50,338'])

Есть ли способ получить точный атрибут из той же области независимо от извлечения какого-либо документа?

Anakin87 · Answer 1 · 14 января 2019

Возможно, вам поможет опция table_regions (введена в версии 0.7).

https://camelot -py.readthedocs.io / о / ведущий / пользователь / advanced.html # указать СТОЛ-регионы

"Если указан аргумент table_regions, Camelot будет анализировать только указанные регионы для поиска таблиц."

Вы можете определить большую область table_regions, и Camelot будет искать таблицы в этой области.

Найти PDF размеры с Камелот

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найти PDF размеры с Камелот

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы