Question

Здравствуйте, я начинаю с Apache Spark и столкнулся с проблемой чтения PDF из HDFS

Я пытался решить свою проблему с помощью двоичного файла, но я не знаю, как это реализовать, все примерынаписаны на языке скала. Я слышал, что Apache Tika обеспечивает чтение PDF из двоичных файлов, но пока я не знаю, как читать этот файл PDF, это знание бесполезно, сейчас я использую PDFBox

        SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");
        JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
        JavaRDD<File> pdfFiles = javaSparkContext.objectFile("hdfs://192.123.81.123:9000/atos/sample.pdf");
        JavaRDD<PDDocument> pdfDocuments = a.map(file -> PDDocument.load(file));
        JavaRDD<String> pdfText = pdfDocuments.map(document -> new PDFTextStripper().getText(document));

Фактический выводis "java.io.IOException: hdfs: //192.123.81.123: 9000 / atos / sample.pdf не является файлом последовательности"

Fakinoo · Answer 1 · 17 октября 2019

Я решил свою проблему с помощью метода .binaryFile (path), который возвращает JavaPairRDD

Как исправить "hdfs: //192.123.81.123: 9000 / atos / sample.pdf, а не SequenceFile"

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как исправить "hdfs: //192.123.81.123: 9000 / atos / sample.pdf, а не SequenceFile"

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы