Question

Я пытаюсь отформатировать данные для подачи в модель SparkML Word2Vec. В настоящее время у меня есть список списков Python, где элементы представляют слова, такие как

MY_TEXT = [['a','b','c'],['d','e','f']].

Мне нужно поместить это в RDD списка строк для подачи. Я пробовал

data = sc.parallelize([MY_TEXT])

но возвращается can not serialize object larger than 2G. Это странно, потому что мой список списков в памяти только 0.2G. Можете ли вы посоветовать, как это оптимизировать?

PySpark - Преобразование списков списков Python в RDD списка строк - RDD (List (String))

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

PySpark - Преобразование списков списков Python в RDD списка строк - RDD (List (String))

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов