Попытка найти топ 10 наиболее распространенных маршрутов в списке маршрутов - PullRequest
0 голосов
/ 03 октября 2018

Я пытаюсь использовать Excel, чтобы найти наиболее распространенные маршруты в списке маршрутов (начальный город / штат и конечный город / штат), который выглядит следующим образом:

SACRAMENTO  CA   SANTA FE SPRINGS   CA
FRESNO  CA   SAN DIEGO  CA
FIONA   TX   LOS ANGELES    CA
ELMWOOD PARK    NJ   MORENO VALLEY  CA
RICHMOND    CA   VERNON     CA
TORRANCE    CA   OKLAHOMA CITY  OK
LOUISVILLE  KY   MANCHESTER     PA
SAN DIEGO   CA   PHOENIX    AZ
SAN DIEGO   CA   FRESNO     CA
SAN DIEGO   CA   CONLEY     GA
WACO    TX   COMMERCE   CA
MARSHVILLE  NC   HARRINGTON     DE
SYRACRUSE   NY   SOUTH WINDSOR  CT
CARTHAGE    MO   GORDONSVILLE   VA
NEW BERLIN  NY   FORT WORTH     TX
HERMITAGE   PA   CARROLLTON     TX
BETHLEHEM   PA   COTTONWOOD     AL
SAN DIEGO   CA   OREGON CITY    OR
SAN DIEGO   CA   KENT   WA
... and so on

Я пытаюсь использоватьExcel сделать это, потому что я думаю, что это можно сделать с помощью сводных таблиц, но я не уверен.Если дело доходит до этого, я тоже могу использовать python.Я ищу советы, как использовать Excel для этого или как мне настроить алгоритм в Python.Спасибо, любая помощь приветствуется.

1 Ответ

0 голосов
/ 03 октября 2018

Это даст вам то, что вы ищете:

df = df.groupby(['Col1', 'Col2']).size().reset_index(name='Freq') 
#Col1 and #Col2 is the name columns of your df
...