В Pyspark с использованием Python - Row целесообразно проверить один конкретный столбец, если он содержит список ключевых слов.Если да, скопируйте соответствующее ключевое слово / слова в другой столбец - PullRequest
0 голосов
/ 27 сентября 2018

У меня есть столбец StringType в кадре данных.Для каждой строки этого конкретного столбца DataFrame я хочу проверить, содержит ли он ключевые слова, упомянутые в другом столбце DataFrame.Если да, то он заполнит ключевое слово в этой строке нового столбца.

Каждая строка столбца DESCRIPTION в моем df выглядит примерно так: -

"cs1copdbq01ha - AIX ERRPT problem - resource name:hdisk5 errpt entry:HARDWARE:CRITICAL:PA,;BNS_Unix;    Major    bns_cs1copdbq01ha    AIX ERRPT problem"

Для каждой строки в столбце DESCRIPTION я хочу проверить, присутствует ли в нем любое из следующих имен в столбце NAMES.Частичное или полное совпадение.Если появляется, то имя или имена, которые соответствуют, должны быть заполнены в другом столбце с именем MATCH того же DataFrame.Если нет, то следует заполнить 'No Name' до столбца MATCH.

+--------+
|   NAMES|
+--------+
|   drake|
|   BRAke|
|    Jake|
|    Ktac|
|    Dake|
|    Howy|
|    Briy|
|    Vesi|
+--------+
...