Эффективная фильтрация большого набора данных условно - PullRequest
0 голосов
/ 19 марта 2019

У меня большой набор данных, ~ 500 миллионов наблюдений.Эти наблюдения охватывают многие годы.Каждое наблюдение содержит дату и идентификатор, который соответствует местоположению наблюдений.

Я хотел бы удалить все идентификаторы местоположения, которые не содержались в первый год наблюдений.Я пытаюсь найти наиболее эффективный способ сделать это.

В настоящее время я работаю в Google Cloud Platform.Я знаю, что могу сделать это в Pyspark, но это займет вечность.У кого-нибудь есть рекомендации?

...