Я использую pyspark sql с keras под elephas.
Я хочу попробовать какую-то распределенную обработку изображений с mongoDB GridFS
Я нашел связанный вопрос, но в мире Java наScala Загрузка фрейма данных Spark 2.x из MongoDB GridFS
Но не более того, я не могу найти никакой другой документации по работе с GridFS из pySpark.
мой pyspark - код монго выглядит так:
sparkConf = SparkConf().setMaster("local[4]").setAppName("MongoSparkConnectorTour")\
.set("spark.app.id", "MongoSparkConnectorTour")\
.set("spark.mongodb.input.database", config.MONGO_DB)
# If executed via pyspark, sc is already instantiated
sc = SparkContext(conf=sparkConf)
sqlContext = SQLContext(sc)
dk = sqlContext.read.format("com.mongodb.spark.sql.DefaultSource")\
.option("spark.mongodb.input.uri", config.MONGO_MED_EVENTS)\
.load()
if (dk.count() > 0):
# print data frame schema
dk.printSchema()
# Preview Dataframe (Pandas Preview is Cleaner)
print( dk.limit(5).toPandas() )
Возможно ли работать с данными GridFS таким образом? Я хотел бы видеть минимальный пример.