Удаление дубликатов записей, существующих в списке Python, с помощью pyspark - PullRequest
0 голосов
/ 05 марта 2019

Я пытаюсь найти и удалить дубликаты значений, которые в данный момент хранятся в файле YAML.

Пока я пробовал это: df_input_file.drop_duplicates(self.duplicate_column_list)

и duplicate_column_list = 'active_proposal_no,active_proposal_revision_no,agency_id,adv_id,network_code,mkt_type,budget_seq_nbr,mkt_year_code'

В приведенном выше списке я загружаю его из файла YAML.

При попытке этого я не могу определить дубликаты записей.

Есть ли другой способ добиться этого?

1 Ответ

0 голосов
/ 05 марта 2019

По сути, ваш duplicate_column_list на самом деле не список, а строка столбцов, разделенных запятой.Вам необходимо составить этот список с помощью функции split.drop_duplicates обрабатывает все это как один столбец, поэтому вы не получите правильный результат.

Ниже приведены исходные данные: -

duplicate_column_list  = 'active_proposal_no,active_proposal_revision_no,agency_id,adv_id,network_code,mkt_type,budget_seq_nbr,mkt_year_code'

Используйте функцию Split для создания списка: -

duplicate_column_list  = 'active_proposal_no,active_proposal_revision_no,agency_id,adv_id,network_code,mkt_type,budget_seq_nbr,mkt_year_code'.split(",")

Split сделает его списком: -

duplicate_column_list  = ['active_proposal_no','active_proposal_revision_no','agency_id','adv_id','network_code','mkt_type','budget_seq_nbr','mkt_year_code']

Теперь передайте этот списокотбросить дубликаты: -

df_input_file.drop_duplicates(duplicate_column_list)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...