Файл Windows в спарк чтения CSV - PullRequest
0 голосов
/ 08 ноября 2018

Я использую блоки данных для практики в Python

Я пытаюсь загрузить файл Windows через:

diamonds = spark.read.csv('file:///C:/abc.csv', header="true", inferSchema="true")

Я уверен, что мой файл находится в C: /abc.csv, но система всегда возвращает эту ошибку:

u'Path does not exist file:/C:/abc.csv;'

Как я могу загрузить файл в систему Windows?

Ответы [ 2 ]

0 голосов
/ 09 ноября 2018

Databricks - облачный сервис, который запускает кластер в облаке.Вы можете взаимодействовать с кластером, используя записную книжку в вашем браузере, но у блоков данных нет доступа к файлам на вашем компьютере.(Разрешение веб-сайтам доступа к произвольным файлам на вашем компьютере было бы серьезной проблемой безопасности. Изображение, если я отправил вам вредоносную ссылку, и когда вы щелкнули по ней, я мог бы просто прочитать любой файл на вашем компьютере).

Если выиспользуйте кнопку данных в левой части пользовательского интерфейса блоков данных, вы можете загружать CSV-файлы и создавать таблицы, которые будут доступны для вашего кластера блоков данных.

0 голосов
/ 08 ноября 2018

1. Определите полный путь как переменную - каждый путь должен начинаться с диска, если локальный

# remove the 'file' string and use 'r' or 'u' prefix to indicate raw/unicore string format
# Option 1
PATH = r'C:\abc.csv'  # raw string
# Option 2
PATH = u'C:\\abc.csv' # unicode string

2. Установите переменную пути к вашему искровому вызову

diamonds = spark.read.csv(PATH, header="true", inferSchema="true")

По сути, ваш путь к файлу неверен.

...