У меня есть данные в следующем формате:
dateObs website
--- ---
2015-04-21 google.com
2015-08-13 facebook.com
2015-11-15 google.com
...
Я хочу вывод в следующем формате:
year count of distinct websites
--- ---
2015 2
...
Я могу получить общее количество сайтов в год, включая дубликаты, используя:
import pandas as pd
import numpy as np
data = pd.read_csv(file_path)
groupby = data.groupby(pd.to_datetime(data['dateObs']).dt.year).agg({'website':np.size})
Как я могу отбросить дубликаты в счетчике?