Прочитать PDF-файл в apache spark. - PullRequest
0 голосов
/ 31 октября 2018

Мы можем прочитать файл avro, используя следующий код,

val df = spark.read.format("com.databricks.spark.avro").load(path)

возможно ли чтение файлов pdf с использованием кадров данных Spark?

1 Ответ

0 голосов
/ 02 ноября 2018

Вы не можете прочитать pdf и сохранить его в df, так как он не может прерывать столбцы информационного кадра (в основном он не имеет стандартной схемы ), поэтому, если вы хотите получить некоторые данные из PDF-файл сначала преобразует это в CSV или паркет, а затем вы можете прочитать из этого файла, а затем создать кадр данных, поскольку он имеет определенную схему

Посетите этот справочник, чтобы узнать больше о доступных форматах чтения, которые вы можете использовать для получения данных в виде фрейма данных

DataFrameReader - загрузка данных из внешних источников данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...