Вы можете использовать split функции, которые используют шаблон регулярного выражения для разделения данных.
import pyspark.sql.functions as f
df.withColumn('ns', f.split('s', "[^a-zA-Z0-9']+")).show(10,False)
+---------------------------------------------+----------------------------------------------------+
|s |ns |
+---------------------------------------------+----------------------------------------------------+
|Cras mattis MP the -69661/69662;69663 /IS4567|[Cras, mattis, MP, the, 69661, 69662, 69663, IS4567]|
+---------------------------------------------+----------------------------------------------------+
Примечание: "[^a-zA-Z0-9']+"
позаботится об основных английских символах, ноесли вы хотите включить специальные символы, вы можете использовать \p{L}
вместо a-zA-Z
как "[^\\p{L}0-9']+"