Извлечение таблиц из PDF-символов в R? - PullRequest
0 голосов
/ 23 марта 2020

Я собираю данные в таблицах из PDF-файлов, доступных в Интернете, но данные, которые я ищу, будут не в каждом проверяемом PDF-файле. Прямо сейчас мой код вводит данные, используя pdf_text() из библиотеки pdftools, и проверяет, что в нем есть нужные мне данные (при этом сокращая вектор, чтобы он содержал только те таблицы, которые мне нужны).

Я пытаюсь go из этой переменной в правильно организованную таблицу (сейчас переменная представляет собой последовательность строк, поэтому данные из разных столбцов появляются в одних и тех же строках, разделенных 1 или более пространства). Есть ли функция, которая уже позаботится об этом?

Заранее спасибо за вашу помощь

Редактировать: Вот пример того, что я хочу преобразовать в правильно отформатированную таблицу. Это строка из пяти столбцов из одной таблицы:

 [1] "                      Settled stormwater, including stormwater"                                              
 [2] "                      from Crusher Slope Drainage Area east of                                    Permanente"
 [3] "             002                                                     37.31674°      -122.10167°"             
 [4] "                      Pond 13B, discharged from Pond 13B                                            Creek"   
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...