выделение нескольких строк со списком идентификаторов pyspark - PullRequest
0 голосов
/ 06 марта 2019

У меня есть таблица в spark, которая имеет атрибуты ID и numOfReq. в ID это от 1 до 100, и он не в порядке, и каждый ID может повторяться в таблице много раз. Я хочу извлечь строки с 1, 47, 54 и 89 идентификаторами. Я могу сделать это с помощью цикла for, как этот псевдокод:

temp = [None , None, None, None]
i = 0
for id in idList:
    temp[i] = table.filter(table['ID'] == id)
    i += 1

но это заняло много времени. Есть ли фильтр или библиотека, которые делают это быстро? что я должен вставить в мой код? Мне нужно что-то в pyspark

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...