Pyspark: удаление столбцов на основе подмножества строки - PullRequest
0 голосов
/ 06 февраля 2020

У меня есть датафрейм; который выглядит следующим образом:

id   1id  id2  ac1  2ac tre tye

Я хочу удалить столбцы, в которых есть «id» и «a c», и сохранить остальные

Как мне добиться этого в pyspark

Пробные «операторы выбора» не работают

Как использовать здесь регулярное выражение для имен столбцов?

1 Ответ

1 голос
/ 06 февраля 2020

Используйте простое понимание списка:

  • Использование Select

    df.select(*[col(c) for c in df.columns if not("id" in c or "ac" in c)]).show()
    
  • Использование Drop

    df.drop(*[c for c in df.columns if "id" in c or "ac" in c]).show()
    
...