У меня проблема с переносом pdf в R.
Это прекрасно работает, за исключением того, что в PDF есть названия некоторых компаний, которые являются слишком длинными и поэтому разбиваются на 2 строки (обернутый текст), поэтому, когда я используйте pdftools R по-прежнему неправильно обрабатывает информацию для этих строк. У кого-нибудь есть предложения?
Вот как выглядит документ - проблемы с записью 3 и записью 4.
вот мой код:
library(pdftools)
dfpdf <- pdf_text('./data/record.pdf') %>%
stringr::str_split('\n', simplify = T) %>%
matrix(ncol = 1)
tab_start <- stringr::str_which(dfpdf, ' Uppdrag att')
tab_end <- stringr::str_which(dfpdf, ' Visar uppdrag')
tab <- dfpdf[(tab_start+1):(tab_end-1), 1] %>%
str_replace_all('\\s{2,}', '\t')
text_conn <- textConnection(tab)
df <- read.csv(text_conn, sep = '\t', skip = 1)
Вот что я получаю:
Запись 3 и запись 4 занимают дополнительную строку с завернутым текстом.
Вы можете получить аналогичный образец PDF из введите описание ссылки здесь , стр. 9. Строки выглядят следующим образом:
Я ценю любые предложения (в том числе лучшие способы чтения PDF и способы упростите мой код).
Спасибо!