это мой первый вопрос здесь, поэтому я надеюсь сделать это хорошо.
В любом случае, я новичок в pyspark и у меня возникли некоторые проблемы с загрузкой моего CSV-файла.
Дело в том, что у меня есть CSV с 3 столбцами и около 8 000 000 строк, но когда я создаю фрейм данных с помощью pyspark и проверяю размер фрейма данных, я получаю только 3124 744 с помощью метода count.
Я не получаю сообщения об ошибке, если бы не проверка счета, я бы не заметил ничего плохого.
Сейчас я запускаю эту версию из ноутбука google colab с помощью spark-2.4 .4, openjdk-8 и python -3.
df_ratings = spark.read.csv('rating.csv', inferSchema = True, header = True, sep = ',')
Спасибо за помощь: D