У меня есть rdd, элементами которого являются списки следующего формата (('string', 'string'), int)
:
print(my_rdd.take(1))
Out >> [((u'string_1', u'string_2'), 1)]
Однако после записи / чтения каждый элемент рассматривается как строка:
my_rdd.saveAsTextFile('my_path')
read_rdd = sc.textFile('my_path')
print(read_rdd.take(1))
Out >> [u"((u'string_1', u'string_2'), 1)"]
Какая лучшая практика? Нужно ли улучшать операцию записи или чтения?