Чтение PDF с завернутым текстом в R - PullRequest
1 голос
/ 24 марта 2020

У меня проблема с переносом pdf в R.

Это прекрасно работает, за исключением того, что в PDF есть названия некоторых компаний, которые являются слишком длинными и поэтому разбиваются на 2 строки (обернутый текст), поэтому, когда я используйте pdftools R по-прежнему неправильно обрабатывает информацию для этих строк. У кого-нибудь есть предложения?

Вот как выглядит документ - проблемы с записью 3 и записью 4. enter image description here

вот мой код:

library(pdftools)
dfpdf <- pdf_text('./data/record.pdf') %>%
stringr::str_split('\n', simplify = T) %>%
matrix(ncol = 1)

tab_start <- stringr::str_which(dfpdf, ' Uppdrag att')
tab_end <- stringr::str_which(dfpdf, '                      Visar uppdrag')
tab <- dfpdf[(tab_start+1):(tab_end-1), 1] %>%
  str_replace_all('\\s{2,}', '\t')
text_conn <- textConnection(tab)
df <- read.csv(text_conn, sep = '\t', skip = 1)

Вот что я получаю: enter image description here

Запись 3 и запись 4 занимают дополнительную строку с завернутым текстом.

Вы можете получить аналогичный образец PDF из введите описание ссылки здесь , стр. 9. Строки выглядят следующим образом:

Я ценю любые предложения (в том числе лучшие способы чтения PDF и способы упростите мой код).

Спасибо!

...