У меня есть фрейм данных pyspark, подобный входным данным ниже. Я хотел бы создать новый столбец product1_num, который анализирует первую цифру c в каждой записи в столбце productname в новый столбец. У меня есть пример выходных данных ниже. Я не уверен, что доступно в pyspark для разделения строк и соответствия регулярным выражениям. Кто-нибудь может подсказать, как это сделать с pyspark?
входные данные:
+------+-------------------+
|id |productname |
+------+-------------------+
|234832|EXTREME BERRY SAUCE|
|419836|BLUE KOSHER SAUCE |
|350022|GUAVA (1G) |
|123213|GUAVA 1G |
+------+-------------------+
вывод:
+------+-------------------+-------------+
|id |productname |product1_num |
+------+-------------------+-------------+
|234832|EXTREME BERRY SAUCE| |
|419836|BLUE KOSHER SAUCE | |
|350022|GUAVA (1G) |1 |
|123213|GUAVA G5 |5 |
|125513|3GULA G5 |3 |
|127143|GUAVA G50 |50 |
|124513|LAAVA C2L5 |2 |
+------+-------------------+-------------+