Я хочу разбить файл по первому символу строки в Pyspark DataFrame.
Исходные данные имеют столбец, данные включают
имя файла (например, 'DATE20191009')
содержимое файла (например, «1», «2», «3»)
Входной файл примера (Pyspark DataFrame):
column1
Date20191009
1
2
3
Date20191010
1
4
5
Я хочу получить Pyspark DataFrame с именем файла в качестве разделения данных.
Имя файла помещается в столбец 1 кадра данных, а содержимое файла помещается в столбец 2 кадра данных.
Ожидаемый вывод (Фрейм данных Pyspark)
column1 column2
Date20191009 [1,2,3]
Date20191010 [1,4,5]
Я пытался использовать Pandas Dataframe и Pyspark DataFrame.collect () , но оба не удалось из-за чрезмерного объема данных (более 9 миллионов строк).