Я застрял.
У меня есть фрейм данных, в котором строки создаются в тот момент, когда клиент указывает цену продукта.
Мои (усеченные) данные:
import pandas as pd
d = {'Quote Date': pd.to_datetime(['3/10/2016', '3/10/2016', '3/10/2016',
'3/10/2016', '3/11/2017']),
'Customer Name': ['Alice', 'Alice', 'Bob', 'Frank', 'Frank']
}
df = pd.DataFrame(data=d)
Я хочу проверить для каждой строки, является ли это первым взаимодействием, которое я имел с этим клиентом за год.Моя мысль состоит в том, чтобы сравнить имя клиента каждой строки с именем клиента в строках предыдущих лет.Если имя клиента строки не входит в подмножество предыдущего года, я добавлю значение True в новый столбец:
df['Is New']
На практике форма информационного кадра будет близка к (150000000, 5) иБоюсь, что добавление вычисляемого столбца не будет хорошо масштабироваться.
Я также подумал о создании мультииндекса с датой и затем именем клиента, но я не был уверен, как выполнить необходимый поиск с помощью этой индексации.
Пожалуйста, примените любой метод, который вы считаетебудет более эффективным при проверке первого экземпляра клиента в предыдущем году.