Удаление нижнего колонтитула из PDF с помощью R и pdftools - PullRequest
0 голосов
/ 10 мая 2019

Я минимально работаю с R.

Мне дали предыдущий скрипт анализа текста сотрудников, который был построен с использованием pdftools :: pdf_text для импорта данных.

I 'Я хотел бы удалить повторяющуюся информацию нижнего колонтитула, которая только запутывает вещи.Нижние колонтитулы содержат документ №, офис, который подготовил отчет, и номер страницы.Я не слишком обеспокоен номером страницы.Документ # и office являются статическими для каждого документа, поэтому это может показаться хорошей целью для grep или какого-либо другого подхода с регулярными выражениями ...

Заранее благодарен за любой совет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...