Как сравнить каждую строку из одного информационного кадра со всеми строками из другого информационного кадра и вычислить меру сходства? - PullRequest
0 голосов
/ 25 марта 2020

У меня есть два фрейма данных

  1. Фрейм данных клиента (150K записей)

Customer dataframe

Кадр данных агента (280K записей)

Agent dataframe

Цель состоит в том, чтобы идентифицировать агента из кадра данных агента с наибольшим сходством с клиент, основанный на 3 параметрах - язык, почтовый сектор и идентификатор дома (в порядке приоритета)

Это то, что я пробовал до сих пор - язык, почтовый сектор и hid, чтобы создать уникальный ключ для применения нечеткой логики c согласно этой записи. Проблема в том, что он занимает много времени и код не завершается sh даже через час.

Было бы очень здорово, если бы я мог использовать некоторые рекомендации здесь - Если бы мне пришлось использовать оценку сходства, как косинус расстояние или Jaccard, как я могу сделать так, чтобы я сравнивал одну запись клиента со всеми агентами во втором кадре данных, чтобы определить наиболее похожего агента?

...