Question

Я работаю над огромным объемом данных, строк около 50 миллионов.Я хочу найти уникальные значения столбцов из нескольких столбцов.Я использую приведенный ниже скрипт.

dataAll[['Frequency', 'Period', 'Date']].drop_duplicates()

Но это занимает много времени, более 40 минут.

Я нашел альтернативу:

pd.unique(dataAll[['Frequency', 'Period', 'Date']].values.ravel('K'))

но приведенный выше скрипт даст массив, но мне нужно в кадре данных, как первый скрипт даст как показано ниже

jezrael · Answer 1 · 09 июня 2018

Как правило, ваш новый код невозможно преобразовать в DataFrame, потому что:

pd.unique(dataAll[['Frequency', 'Period', 'Date']].values.ravel('K'))

создайте один большой 1d numpy array, поэтому после удаления дубликатов невозможно воссоздать строки.

Например, если есть 2 уникальных значения 3 и 1, невозможно найти, какие даты относятся к 3 и 1.

Но если есть толькоодно уникальное значение для Frequency и для каждого Period возможно найти Date, как в примере, возможно решение.

РЕДАКТИРОВАТЬ:

Одной из возможных альтернатив является использование dask.dataframe.DataFrame.drop_duplicates.

Альтернатива для drop_duplicates python 3.6

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Альтернатива для drop_duplicates python 3.6

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы