У меня есть несколько тысяч документов (на немецком языке) в формате PDF. Мне нужно извлечь часть текста из каждого из них, который обычно идет после даты и заканчивается перед датой, местоположением, адресом почти в конце страницы. Пример прилагается. Нужный мне текст выделен. введите описание изображения здесь
То, что я пробовал, это qdapRegex::rm_between
:
library(pdftools)
library(qdapRegex)
t1 <- pdf_text("textsample.pdf")
textIneed <- rm_between(t1, "Datum", ", den" )
, что не сработало. На выходе получается весь текстовый контент, включая Name, Vorame и т. Д. c. (Я мог бы жить с датой 20.01.2019 в начале.) Что я делаю неправильно, мне непонятно, так как я новичок в регулярных выражениях и nlp и не могу обнаружить его, читая документацию rm_between
или qdapRegex
.
Моя первая проблема - заставить это работать.
Еще одна проблема заключается в том, что эти документы не являются стандартными, и некоторые документы могут содержать другой тип информации, например, Ref:1234
вместо даты до выделенная область. Этот фрагмент может быть найден на любой странице документа, поэтому использование точных номеров страниц не вариант.
Есть ли другое решение, библиотека и т. Д. c. что можно использовать для извлечения большей или меньшей части текста?