Извлечение текста из таблицы в R - PullRequest
0 голосов
/ 06 марта 2020

У меня возникли серьезные проблемы при попытке использовать пакет tabulizer в R для извлечения текста из таблиц. Проблема в том, что таблицы имеют очень странную структуру (объединенные ячейки) ...

enter image description here

Я пытаюсь извлечь часть таблицы, которая выделено красным. Числа в верхней части выделенной части являются днями месяца. Для каждого дня мне нужно записать значения от «Row1» до «Row5». Однако, когда я использую функцию extract_tables, я получаю следующую таблицу (только небольшую часть) ...

enter image description here

По некоторым причинам, дни 1, 2 и 3 сжимаются в одну клетку. Кто-нибудь еще сталкивался с этой проблемой, используя tabulizer? Я хотел бы указать координаты таблицы, которую я пытаюсь извлечь, однако положение таблицы меняется с каждым документом PDF. Я также не могу указать регион вручную, потому что я пытаюсь автоматизировать процесс. Я не могу загрузить PDF-документ в Dropbox, а затем опубликовать ссылку здесь, потому что я на своем рабочем компьютере. Я могу опубликовать это сегодня вечером, если кто-то захочет попробовать этот конкретный пример. Любая помощь / ресурсы очень ценятся!

...