Я пытаюсь прочитать простой текстовый файл в Spark RDD и вижу, что есть два способа сделать это:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
sc = spark.sparkContext
textRDD1 = sc.textFile("hobbit.txt")
textRDD2 = spark.read.text('hobbit.txt').rdd
, затем я просматриваю данные и вижу, что два RDDструктурировано иначе
textRDD1.take(5)
['The king beneath the mountain',
'The king of carven stone',
'The lord of silver fountain',
'Shall come unto his own',
'His throne shall be upholden']
textRDD2.take(5)
[Row(value='The king beneath the mountain'),
Row(value='The king of carven stone'),
Row(value='The lord of silver fountain'),
Row(value='Shall come unto his own'),
Row(value='His throne shall be upholden')]
Исходя из этого, вся последующая обработка должна быть изменена, чтобы отразить наличие 'значения'
Мои вопросы
- ЧтоСмысл использования этих двух способов чтения текстового файла?
- При каких обстоятельствах мы должны использовать какой метод?