Question

У меня есть датафрейм; который выглядит следующим образом:

id   1id  id2  ac1  2ac tre tye

Я хочу удалить столбцы, в которых есть «id» и «a c», и сохранить остальные

Как мне добиться этого в pyspark

Пробные «операторы выбора» не работают

Как использовать здесь регулярное выражение для имен столбцов?

blackbishop · Answer 1 · 06 февраля 2020

Используйте простое понимание списка:

Использование Select

df.select(*[col(c) for c in df.columns if not("id" in c or "ac" in c)]).show()

Использование Drop

df.drop(*[c for c in df.columns if "id" in c or "ac" in c]).show()

Pyspark: удаление столбцов на основе подмножества строки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.