Как читать файлы Nifti (.nii), хранящиеся в HDFS, с помощью pyspark? - PullRequest
0 голосов
/ 14 января 2019

Я пытаюсь создать модель для обучения с изображениями формата nii. Я могу читать файлы из локальной файловой системы с помощью библиотеки nibabel Но я не могу найти подходящую библиотеку для чтения файлов nii из hdfs с помощью pyspark. Я также пытался читать, используя искровой двоичный файл. Ни одна из техник не сработала.

Я мог бы читать файлы из локальной файловой системы с помощью библиотеки nibabel, но я не нашел подходящей библиотеки для чтения файлов nii из hdf с использованием pyspark. Я также пытался читать, используя искровой двоичный файл. Я также пытался копировать в объект и читать как объект.

Вот код, как я читаю JPG Images для обучения. Мне нужно прочитать nii файлы.

from sparkdl import readImages
from pyspark.sql.functions import lit
img_dir = "MRI_dataset"

AD_df = readImages(img_dir + "/ADTest").withColumn("label", lit(1))
HO_df = readImages(img_dir + "/HOTest").withColumn("label", lit(0))
MCI_df = readImages(img_dir + "/MCITest").withColumn("label", lit(2))



train_df,test_df = (AD_df.unionAll(HO_df)).unionAll(MCI_df).randomSplit([0.6, 0.4], seed = 42)

train_df = train_df.repartition(100)
test_df = test_df.repartition(100)
...