У меня есть файл (csv), который при чтении в искровом фрейме данных имеет следующие значения для схемы печати
-- list_values: string (nullable = true)
значения в столбце list_values выглядят примерно так:
[[[167, 109, 80, ...]]]
Возможно ли преобразовать это в тип массива вместо строки?
Я попытался разделить его и использовать код, доступный онлайн для подобных проблем:
df_1 = df.select('list_values', split(col("list_values"), ",\s*").alias("list_values"))
, но если я запустил приведенный выше код,массив, который я получаю, пропускает много значений в исходном массиве, т. е.
вывод приведенного выше кода:
[, 109, 80, 69, 5...
, который отличается от исходного массива, т. е. (- 167 отсутствует)
[[[167, 109, 80, ...]]]
Поскольку я новичок в Spark, у меня мало знаний о том, как это делается (Для Python я мог бы выполнить ast.literal_eval, но в Spark этого не предусмотрено.
Поэтому я повторю вопрос еще раз:
Как я могу преобразовать / преобразовать массив, хранящийся в виде строки, в array
т.е.
'[]' to [] conversion