Как создать DataFrame из объекта SparkSession для чтения в формате PNG? - PullRequest
0 голосов
/ 26 апреля 2018

Я использую Spark2.0.0 в моей среде разработки. Я создал объект SparkSession, как показано ниже

spark = SparkSession().getOrCreate()
Image = spark.read.json() 

Я могу использовать вышеупомянутую SparkSession для чтения файлов json. Но есть ли способ прочитать файл изображения (PNG, JPG)? Я попытался найти документ spark 2.0, но об этом ничего не было сказано.

Моя основная цель - загрузить изображения в формате DF из какого-либо локального хранилища / HDFS через

Image = spark.read.()

и сохраните их в виде последовательного файла в папке HDFS для обработки изображений.

Как мы можем выполнить эту задачу? Любая помощь будет принята с благодарностью.

Ответы [ 2 ]

0 голосов
/ 26 апреля 2018

Это был хит и пробный метод. Вместо использования sparkSession я использовал SparkContext и использовал его встроенную функцию.

image = sc.textFile("hdfs:/<path_to/image2.png",1) 

Спарк прочитал его без ошибок. Надеюсь, это пригодится и другим.

0 голосов
/ 26 апреля 2018

Вы можете использовать метод WholeTextFile (), предоставляемый SparkContext.Я не очень привык кодировать на python.Но я могу помочь вам с примером JAVA.

JavaSparkContext sc = new JavaSparkContext();
JavaRDD<Tuple2<String, String>> rdd = sc.wholeTextFiles("image-path", 1).toJavaRDD();
rdd.foreach(x -> {

});

После того, как вы получите данные, вы можете использовать свою собственную библиотеку видео / изображений для обработки изображения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...