Объединение двух таблиц на основе вероятностного совпадения c и сходства столбцов - PullRequest
0 голосов
/ 02 апреля 2020

Я хочу объединить две таблицы с несколькими столбцами, которые похожи, но не всегда совпадают. Обе таблицы имеют некоторый тип уникального идентификатора, но он записывается только менее чем на 50%, а при наличии он имеет точность только на 80% Я попытался создать свой собственный уникальный идентификатор, но проблема в том, что каждый из этих столбцов может немного отличаться или отсутствовать или быть неточным. Поэтому я хотел бы иметь вероятностный подход к этому. то, что выводит процентное совпадение. У меня есть пример данных из таблицы 1 и таблицы 2 после попытки сопоставления (реальные данные имеют около миллиона столбцов)

Таблица 1 содержит:

Уникальный идентификатор 1: введено 40% времени & с точностью до 80% Автоматическая модель: введено 100% и 98% с точностью Город: введено 100% и 100% с точностью Номер отправки: введено с 40% и 70% точностью Дата: введено 100% и 98% с точностью Тип происшествия: введено 100% и 98% инцидент с точной детализацией 1: введенный текст на 100%

enter image description here

...