Я хочу обработать 20 ТБ pdf-файлов в spark с использованием tika таким образом, чтобы на каждый вход для каждого pdf-файла приходилось по одному выводу.
Я могу сделать это последовательно, но это занимает много времени. Делая это параллельно (предоставляя входные данные как весь каталог, содержащий файлы pdf), это занимает очень мало времени, но выходные данные представляют собой файлы деталей, содержащие перекрывающиеся значения. Есть ли способ, которым я могу сделать это параллельно и получить один выход на вход.
Ниже мой код: -
val binRDD = sc.binaryFiles("/data")
val textRDD = binRDD.map(file => {new org.apache.tika.Tika().parseToString(file._2.open( ))}) textRDD.saveAsTextFile("/output/")