Чтение PDF-файлов в облаке - PullRequest
0 голосов
/ 24 марта 2020

У меня есть большое количество PDF-файлов (около 30000), которые относятся к разным странам. Я хочу прочитать их и сформировать корпус для каждой страны. Первоначально я использовал функцию pdf_text из пакета pdftools, и процесс был довольно быстрым, 2 минуты для каждой страны. Позже я понял, что результат не был оптимальным, то есть некоторые слова были отображены неправильно, и переключился на функцию pdf_ocr_text. Результат действительно точный, но время вычислений очень велико (2 часа для одной страны).

Поскольку чтение по странам является независимым, я думал о параллельном процессе в облаке, но я никогда не делал этого. У кого-нибудь есть хороший учебник или предложения, как это сделать?

...