На последнем скриншоте я думаю, что вам не хватает способа чтения файлов в python с помощью обработчика with
. Если ваши данные находятся в файле json, вы можете прочитать их следующим образом:
with open('data_file.json', encoding='utf-8') as data_file:
data = json.loads(data_file.read())
Обратите внимание, что это 'data_file.json'
, а не data_file.json
. То же самое относится к примеру csv
Если он находится в CSV-файле, то это довольно просто:
file = pd.read_csv('data_file.csv')
Попробуйте удалить параметр кодирования на этапе чтения csv.
Я бы не рекомендовал использовать ноутбук для чтения такого огромного файла, даже если вы используете для этого pyspark. Попробуйте использовать часть этого файла для визуализации в записной книжке, а затем переключиться на другую платформу.
Надеюсь, это поможет