Я думаю, вы должны применить функцию map
к вашим строкам.
Вы можете применить что-либо в самостоятельно созданной функции:
data = spark.read.text("/home/spark/test_it.txt").cache()
def someFunction(row):
wordlist = row[0].split(" ")
result = list()
for word in wordlist:
result.append(word.upper())
return result
data.rdd.map(someFunction).collect()
Выход:
[[u'THIS', u'IS', u'JUST', u'A', u'TEST'], [u'TO', u'UNDERSTAND'], [u'THE', u'PROCESSING']]