Чтение CSV-файла в Dataframe с использованием SparkSession из pyspark.sql в Jupyter Notebook - PullRequest
0 голосов
/ 07 января 2019

Я пытаюсь прочитать CSV-файл, используя SparkSession на ноутбуке Jupyter. Но когда я запускаю свой код, я получаю эту ошибку: «Py4JJavaError: Произошла ошибка при вызове o99.csv .: org.apache.spark.SparkException: Задание прервано из-за сбоя этапа: Задача 0 на этапе 7.0 не выполнена 1 раз, последний сбой : Потерянная задача 0.0 на этапе 7.0 (TID 10, localhost, драйвер исполнителя): org.apache.hadoop.fs.FSError: java.io.IOException: процесс не может получить доступ к файлу, поскольку другой процесс заблокировал часть файла " Что мне нужно сделать, чтобы исправить эту ошибку?

Я использую anaconda в Windows 10. Я пытался найти решения в Интернете, но я не смог исправить это в течение последних нескольких дней.

Вот мой код

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

file_path = r"D:\all\train.csv"

df = spark.read.csv(file_path, header=True)

Это ожидаемые результаты

spark dataframe

Вот код возврата, когда я запускаю код:

Error

...