Я не уверен, задан ли этот конкретный вопрос ранее или нет.может быть возможным дубликатом, но я не смог найти прецедент, сохраняющий это.
Поскольку мы знаем, что мы можем загрузить CSV-файл непосредственно в dataframe, а также загрузить его в RDD и затем преобразовать этот RDDк фрейму данных позже.
RDD = sc.textFile("pathlocation")
мы можем применить некоторые карты, фильтры и другие операции к этому RDD и можем преобразовать его в фрейм данных.
Также мы можем создать фрейм данных, непосредственно читающий файл csv
Dataframe = spark.read.format("csv").schema(schema).option("header","false").load("pathlocation")
Мой вопрос заключается в том, какие могут быть случаи использования, когда нам сначала нужно загрузить файл с использованием RDD и преобразовать его в фрейм данных?
Я просто знаю, что textFile читает строку данныхлиния.Какие могут быть сценарии, когда нам нужно выбрать метод RDD вместо фрейма данных?