У меня есть столбец, полный строк, где некоторые из них похожи: «Телефон T1», «Пост P2, ... Теперь я хотел бы удалить все, что следует за словом. Например, Telefon T1 становится просто Telefon. Я пытался следующий код по-разному, но он продолжает давать мне elephon.
df = df.withColumn('mycolumn', regexp_replace('mycolumn', '[*[ ]?[A-Z]?\d$]'', ""))
Это не столько вопрос pyspark, сколько вопрос о регулярном выражении. Так что если вы заставите его работать со списком, замените " Я получу это ". Спасибо