Я не могу загрузить файл CSV напрямую из хранилища BLOB-объектов Azure в RDD с помощью PySpark в блокноте Jupyter.
Я прочитал почти все другие ответы на подобные проблемы, но у меня нетне нашел конкретных инструкций для того, что я пытаюсь сделать.Я знаю, что могу также загрузить данные в Блокнот с помощью Pandas, но потом мне нужно будет преобразовать Panda DF в RDD.
Мое идеальное решение будет выглядеть примерно так, но этот конкретный код даетмне ошибка, что он не может вывести схему для CSV.
#Load Data
source = <Blob SAS URL>
elog = spark.read.format("csv").option("inferSchema", "true").option("url",source).load()
Я также взглянул на этот ответ: чтение файла CSV из хранилища BLOB-объектов Azureс PySpark , но у меня возникают проблемы с определением правильного пути.
Большое спасибо за вашу помощь!