Question

У меня есть два фрейма данных

Фрейм данных клиента (150K записей)

Кадр данных агента (280K записей)

Цель состоит в том, чтобы идентифицировать агента из кадра данных агента с наибольшим сходством с клиент, основанный на 3 параметрах - язык, почтовый сектор и идентификатор дома (в порядке приоритета)

Это то, что я пробовал до сих пор - язык, почтовый сектор и hid, чтобы создать уникальный ключ для применения нечеткой логики c согласно этой записи. Проблема в том, что он занимает много времени и код не завершается sh даже через час.

Было бы очень здорово, если бы я мог использовать некоторые рекомендации здесь - Если бы мне пришлось использовать оценку сходства, как косинус расстояние или Jaccard, как я могу сделать так, чтобы я сравнивал одну запись клиента со всеми агентами во втором кадре данных, чтобы определить наиболее похожего агента?

Как сравнить каждую строку из одного информационного кадра со всеми строками из другого информационного кадра и вычислить меру сходства?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как сравнить каждую строку из одного информационного кадра со всеми строками из другого информационного кадра и вычислить меру сходства?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы