У меня есть большое количество PDF-файлов (около 30000), которые относятся к разным странам. Я хочу прочитать их и сформировать корпус для каждой страны. Первоначально я использовал функцию pdf_text
из пакета pdftools, и процесс был довольно быстрым, 2 минуты для каждой страны. Позже я понял, что результат не был оптимальным, то есть некоторые слова были отображены неправильно, и переключился на функцию pdf_ocr_text
. Результат действительно точный, но время вычислений очень велико (2 часа для одной страны).
Поскольку чтение по странам является независимым, я думал о параллельном процессе в облаке, но я никогда не делал этого. У кого-нибудь есть хороший учебник или предложения, как это сделать?