Как перебирать строки в фрейме данных в pyspark - PullRequest
0 голосов
/ 28 января 2020

У меня есть скрипт python, который проверяет 'i' строку и 'i + 1' строку столбца, и если они совпадают, новый столбец с именем «Dup» помечается как «да» в данном конкретном случае. строка еще помечается как "нет". Может ли кто-нибудь помочь в преобразовании в pyspark?

**i=0
df['Dup']=''
try:
    while(i<=len(df)):
        if (df['column1'][i]==df['column1'][i+1] and df['column2'][i]==df['column2'][i+1]):
            df['Dup'][i]="Yes"
            i=i+1
        else:
            df['Dup'][i]="No"
            i=i+1
except KeyError:
    print ("Row Exception")**

Вопрос для меня здесь. В HDFS, когда входные данные распределены, как последняя строка 1 части информационного кадра используется для проверки 1-й строки 2-й части информационного кадра?

Заранее благодарим за вашу поддержку / разъяснение.

данные, которые вы можете использовать: ID, метка времени, идентификатор_группы, NetgroupID, тип группы, 1,07-07-2019 03: 14,513, NULL, 1, 2,07-07-2019 03: 22,513, NULL, 5, 3 , 17-07-2019 14: 56 513, NULL, 1, 4, 17-07-2019 15: 09 513, NULL, 5, 5, 18-07-2019 09: 41 513, NULL, 1, 6, 18-07- 2019 09: 50 513, NULL, 1, 7, 18-07-2019 13: 44 513, NULL, 5, 8, 19-07-2019 08: 31 513, NULL, 1, 9, 20-07-2019 06: 24 513, NULL, 5, 10,11-09-2019 07: 25,514, NULL, 1, 11, 11-09-2019 07: 53,514, NULL, 5, 12, 11-09-2019 15: 20,514, NULL, 1, 13 , 11-09-2019 17: 38,514, NULL, 5,

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...