Я пытаюсь разобрать читаемый PDF-файл, находящийся в hdfs.
Я импортировал требуемые банки
Проблема, с которой я столкнулся ниже, после импорта PDF-файла как rdd
val data = sc.binaryFiles(“hdfs://xxxx/path/file.pdf)
Приведенное выше создает rdd, затем я пытаюсь взять rdd для создания потока
val stream : InputStream = new FileInputStream(data)
ошибка: конструктор метода перегрузки FileInputStream с альтернативами: