Я пытаюсь отформатировать данные для подачи в модель SparkML Word2Vec. В настоящее время у меня есть список списков Python, где элементы представляют слова, такие как
MY_TEXT = [['a','b','c'],['d','e','f']]
.
Мне нужно поместить это в RDD списка строк для подачи. Я пробовал
data = sc.parallelize([MY_TEXT])
но возвращается can not serialize object larger than 2G
. Это странно, потому что мой список списков в памяти только 0.2G. Можете ли вы посоветовать, как это оптимизировать?