Как исправить "hdfs: //192.123.81.123: 9000 / atos / sample.pdf, а не SequenceFile" - PullRequest
0 голосов
/ 17 октября 2019

Здравствуйте, я начинаю с Apache Spark и столкнулся с проблемой чтения PDF из HDFS

Я пытался решить свою проблему с помощью двоичного файла, но я не знаю, как это реализовать, все примерынаписаны на языке скала. Я слышал, что Apache Tika обеспечивает чтение PDF из двоичных файлов, но пока я не знаю, как читать этот файл PDF, это знание бесполезно, сейчас я использую PDFBox

        SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");
        JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
        JavaRDD<File> pdfFiles = javaSparkContext.objectFile("hdfs://192.123.81.123:9000/atos/sample.pdf");
        JavaRDD<PDDocument> pdfDocuments = a.map(file -> PDDocument.load(file));
        JavaRDD<String> pdfText = pdfDocuments.map(document -> new PDFTextStripper().getText(document));

Фактический выводis "java.io.IOException: hdfs: //192.123.81.123: 9000 / atos / sample.pdf не является файлом последовательности"

1 Ответ

0 голосов
/ 17 октября 2019

Я решил свою проблему с помощью метода .binaryFile (path), который возвращает JavaPairRDD

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...