У меня есть несколько файлов PDF с множеством таблиц с объединенными ячейками, которые имеют различное содержимое. С каждым файлом я должен взять определенную таблицу, которая имеет ту же структуру, что и мой образец. Как использовать R, чтобы сделать это?
Я попробовал пакет "tabulizer", но моя ожидаемая таблица не на фиксированной странице, и кажется, что она может просто удалить ее. Еще одна проблема - в этих таблицах много объединенных ячеек. Мой алгоритм как ниже:
- Убери стол
- Конвертировать это будет data.frame
- Сравните с моим условием: если все имена строк и столбцов совпадают с моими примерами, возьмите его.
- Написать.csv