У меня есть два фрейма данных
- Фрейм данных клиента (150K записей)
![Customer dataframe](https://i.stack.imgur.com/E0q5Z.png)
Кадр данных агента (280K записей)
![Agent dataframe](https://i.stack.imgur.com/92taK.png)
Цель состоит в том, чтобы идентифицировать агента из кадра данных агента с наибольшим сходством с клиент, основанный на 3 параметрах - язык, почтовый сектор и идентификатор дома (в порядке приоритета)
Это то, что я пробовал до сих пор - язык, почтовый сектор и hid, чтобы создать уникальный ключ для применения нечеткой логики c согласно этой записи. Проблема в том, что он занимает много времени и код не завершается sh даже через час.
Было бы очень здорово, если бы я мог использовать некоторые рекомендации здесь - Если бы мне пришлось использовать оценку сходства, как косинус расстояние или Jaccard, как я могу сделать так, чтобы я сравнивал одну запись клиента со всеми агентами во втором кадре данных, чтобы определить наиболее похожего агента?