PySpark - Преобразование списков списков Python в RDD списка строк - RDD (List (String)) - PullRequest
0 голосов
/ 11 апреля 2019

Я пытаюсь отформатировать данные для подачи в модель SparkML Word2Vec. В настоящее время у меня есть список списков Python, где элементы представляют слова, такие как

MY_TEXT = [['a','b','c'],['d','e','f']].

Мне нужно поместить это в RDD списка строк для подачи. Я пробовал

data = sc.parallelize([MY_TEXT])

но возвращается can not serialize object larger than 2G. Это странно, потому что мой список списков в памяти только 0.2G. Можете ли вы посоветовать, как это оптимизировать?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...