Question

Я пытаюсь найти подстроку во всех столбцах моего искрового фрейма данных, используя PySpark. В настоящее время я знаю, как искать подстроку в одном столбце, используя фильтр, и содержит:

df.filter(df.col_name.contains('substring'))

Как расширить это утверждение или использовать другое для поиска в нескольких столбцах совпадений подстрок?

pissall · Answer 1 · 16 октября 2019

Вы можете обобщить оператор фильтра за один раз:

from pyspark.sql.functions import col, count, when
# Converts all unmatched filters to NULL and drops them.
df = df.select([when(col(c).contains('substring'), col(c)).alias(c) for c in df.columns]).na.drop()

ИЛИ

Вы можете просто зациклить столбцы и применить тот же фильтр:

for col in df.columns:
    df = df.filter(df[col].contains("substring"))

Поиск подстроки по нескольким столбцам

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск подстроки по нескольким столбцам

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов