Выявление дубликатов и выбор дубликатов для удаления - PullRequest
0 голосов
/ 03 ноября 2018

Мне нужна помощь, чтобы очистить мой набор данных. В наборе уникальных идентификаторов есть дубликаты названий исполнителей и исполнителей, и из этих дубликатов есть строка, которая не содержит никакого значения / текста для столбца «Альбом».

Сначала я хочу идентифицировать дубликаты в этом подмножестве идентификаторов миксов, а затем удалить строку, в которой нет значения или текста, в столбце «Альбом».

У меня проблемы с обхватом головы, и любая помощь будет потрясающей!

DF:

enter image description here

Выход: enter image description here

1 Ответ

0 голосов
/ 03 ноября 2018

Вот как я это сделаю:

import pandas as pd

# Partial dataframe 
df  = pd.DataFrame({'Mix_id':[1234567, 1234567, 1234567, 1234567, 1234567],
                   'Title':['Hello its me', 'Music', 'Evolve', 'Evolve', 'Signs'],
                   'Artist':['Martin', 'Ones and Twos', 'Julian', 'Julian', 'Julian'],
                   'Album':["", "", "", "Evolve", ""]})

Исходный кадр данных:

enter image description here

df = df.groupby(['Mix_id', 'Title', 'Artist'], as_index=False).apply(lambda x : x[x.Album.str.len() == x.Album.str.len().max()])
df.reset_index(level=0, drop=True, inplace=True)
df.sort_index()

Выход:

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...