Здравствуйте, я начинаю с Apache Spark и столкнулся с проблемой чтения PDF из HDFS
Я пытался решить свою проблему с помощью двоичного файла, но я не знаю, как это реализовать, все примерынаписаны на языке скала. Я слышал, что Apache Tika обеспечивает чтение PDF из двоичных файлов, но пока я не знаю, как читать этот файл PDF, это знание бесполезно, сейчас я использую PDFBox
SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");
JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
JavaRDD<File> pdfFiles = javaSparkContext.objectFile("hdfs://192.123.81.123:9000/atos/sample.pdf");
JavaRDD<PDDocument> pdfDocuments = a.map(file -> PDDocument.load(file));
JavaRDD<String> pdfText = pdfDocuments.map(document -> new PDFTextStripper().getText(document));
Фактический выводis "java.io.IOException: hdfs: //192.123.81.123: 9000 / atos / sample.pdf не является файлом последовательности"