Question

Мне нужна помощь, чтобы очистить мой набор данных. В наборе уникальных идентификаторов есть дубликаты названий исполнителей и исполнителей, и из этих дубликатов есть строка, которая не содержит никакого значения / текста для столбца «Альбом».

Сначала я хочу идентифицировать дубликаты в этом подмножестве идентификаторов миксов, а затем удалить строку, в которой нет значения или текста, в столбце «Альбом».

У меня проблемы с обхватом головы, и любая помощь будет потрясающей!

DF:

Выход:

Pankaj Joshi · Answer 1 · 03 ноября 2018

Вот как я это сделаю:

import pandas as pd

# Partial dataframe 
df  = pd.DataFrame({'Mix_id':[1234567, 1234567, 1234567, 1234567, 1234567],
                   'Title':['Hello its me', 'Music', 'Evolve', 'Evolve', 'Signs'],
                   'Artist':['Martin', 'Ones and Twos', 'Julian', 'Julian', 'Julian'],
                   'Album':["", "", "", "Evolve", ""]})

Исходный кадр данных:

df = df.groupby(['Mix_id', 'Title', 'Artist'], as_index=False).apply(lambda x : x[x.Album.str.len() == x.Album.str.len().max()])
df.reset_index(level=0, drop=True, inplace=True)
df.sort_index()

Выход:

Выявление дубликатов и выбор дубликатов для удаления

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Выявление дубликатов и выбор дубликатов для удаления

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов