Pyspark SaveAsTextFile () & textFile () не распознает формат списка элементов RDD - PullRequest
0 голосов
/ 30 апреля 2019

У меня есть rdd, элементами которого являются списки следующего формата (('string', 'string'), int):

print(my_rdd.take(1))
Out >> [((u'string_1', u'string_2'), 1)]

Однако после записи / чтения каждый элемент рассматривается как строка:

my_rdd.saveAsTextFile('my_path')
read_rdd = sc.textFile('my_path')

print(read_rdd.take(1))

Out >> [u"((u'string_1', u'string_2'), 1)"]

Какая лучшая практика? Нужно ли улучшать операцию записи или чтения?

1 Ответ

0 голосов
/ 30 апреля 2019

Вообще говоря, для любого вида долговременного хранения требуется строка или двоичная строка, так что это преобразование в строку Unicode кажется нормальным.Просто напишите функцию, чтобы разобрать ее обратно в нужный вам формат.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...