Невозможно импортировать CSV в Pyspark - PullRequest
0 голосов
/ 27 января 2020

Я пытаюсь импортировать csv в фрейм данных, но не могу этого сделать. Вот код.

csv_2_df = spark.read.csv("home/jovyan/oneDay.csv").option("inferSchema","true").option("mode", "DROPMALFORMED")

, когда я пытаюсь запустить вышеуказанный фрагмент кода, я получаю следующую ошибку

 'Path does not exist: file:/home/jovyan/oneDay.csv;'

, чтобы установить контекст, здесь я пытаюсь сделать это в файл jupyter docker, в котором root установлен на / home / jovyan /, и я загрузил свой CSV-файл. Все, что я пытаюсь сделать здесь, это загрузить CSV, я могу сделать это с помощью API текстового файла

data = sc.textFile('/home/jovyan/oneDay.csv') 

, но я пытаюсь использовать CSV API, поскольку он дает мне возможность отбрасывать искаженные строки , Любая помощь приветствуется.

1 Ответ

0 голосов
/ 27 января 2020

Как прокомментировал @cronoik, попробуйте добавить вперед путь sh к вашему пути:

csv_2_df = spark.read.csv("/home/jovyan/oneDay.csv").option("inferSchema","true").option("mode", "DROPMALFORMED")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...