У меня есть список, полный строк.
List = ['NYC','Austin','San Diego', 'New Orleans','LA']
И у меня есть этот фрейм данных с одним столбцом, «сырым» в нем. Все значения в "raw" являются значениями словаря. Итак, sth вроде:
{'NYC':'COOL','Austin':'mild','San Diego':'hot','New Orleans':'cold','LA':'CHILL'}
У меня есть l oop, который я хочу извлечь значения из "сырого" столбца, в котором есть строки в списке выше, используя regex_extract, и создать новый столбец для каждого в Фрейм данных Pyspark.
for field in list:
df = df \
.withColumn(field, F.regexp_extract("raw",''+urllib.quote(field)+':"([^"]*)"', 1))
Но когда я это делаю, это не работает.
Итак, конечная цель - иметь все эти столбцы: 'raw', 'NY C', 'Austin', 'San D iego', 'New Orleans', 'LA'.
Хотите знать, как здесь принимать значения параметров?