Не удается загрузить весь CSV-файл в фрейм данных pyspark - PullRequest
0 голосов
/ 09 января 2020

это мой первый вопрос здесь, поэтому я надеюсь сделать это хорошо.

В любом случае, я новичок в pyspark и у меня возникли некоторые проблемы с загрузкой моего CSV-файла.

Дело в том, что у меня есть CSV с 3 столбцами и около 8 000 000 строк, но когда я создаю фрейм данных с помощью pyspark и проверяю размер фрейма данных, я получаю только 3124 744 с помощью метода count.

Я не получаю сообщения об ошибке, если бы не проверка счета, я бы не заметил ничего плохого.

Сейчас я запускаю эту версию из ноутбука google colab с помощью spark-2.4 .4, openjdk-8 и python -3.

df_ratings = spark.read.csv('rating.csv', inferSchema = True, header = True, sep = ',')

Спасибо за помощь: D

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...