Question

У меня есть rdd, элементами которого являются списки следующего формата (('string', 'string'), int):

print(my_rdd.take(1))
Out >> [((u'string_1', u'string_2'), 1)]

Однако после записи / чтения каждый элемент рассматривается как строка:

my_rdd.saveAsTextFile('my_path')
read_rdd = sc.textFile('my_path')

print(read_rdd.take(1))

Out >> [u"((u'string_1', u'string_2'), 1)"]

Какая лучшая практика? Нужно ли улучшать операцию записи или чтения?

Alex Weavers · Answer 1 · 30 апреля 2019

Вообще говоря, для любого вида долговременного хранения требуется строка или двоичная строка, так что это преобразование в строку Unicode кажется нормальным.Просто напишите функцию, чтобы разобрать ее обратно в нужный вам формат.

Pyspark SaveAsTextFile () & textFile () не распознает формат списка элементов RDD

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pyspark SaveAsTextFile () & textFile () не распознает формат списка элементов RDD

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы