Как я могу показать мой файл данных CSV в блокноте Jupyter с помощью Pyspark - PullRequest
0 голосов
/ 14 апреля 2019

Я работаю с большим набором данных CSV. Мне нужно прочитать это на ноутбуке с помощью pyspark. У меня более 4 миллионов записей (540000 строк и 7 столбцов). Что я могу сделать, чтобы показать весь напечатанный набор данных?

Я пытался использовать pandas dataframe, но он показывает ошибку, как на прикрепленном скриншоте, затем я попытался изменить тип кодировки, который он дает SyntaxError: неожиданный EOF при синтаксическом анализе. Можете ли вы помочь мне?

enter image description here

enter image description here

enter image description here

enter image description here

1 Ответ

0 голосов
/ 14 апреля 2019

На последнем скриншоте я думаю, что вам не хватает способа чтения файлов в python с помощью обработчика with. Если ваши данные находятся в файле json, вы можете прочитать их следующим образом:

with open('data_file.json', encoding='utf-8') as data_file:
    data = json.loads(data_file.read())

Обратите внимание, что это 'data_file.json', а не data_file.json. То же самое относится к примеру csv

Если он находится в CSV-файле, то это довольно просто:

file = pd.read_csv('data_file.csv')

Попробуйте удалить параметр кодирования на этапе чтения csv. Я бы не рекомендовал использовать ноутбук для чтения такого огромного файла, даже если вы используете для этого pyspark. Попробуйте использовать часть этого файла для визуализации в записной книжке, а затем переключиться на другую платформу.

Надеюсь, это поможет

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...