Как проверить сходство двух списков в двух разных файлах Excel с помощью Python? - PullRequest
0 голосов
/ 29 октября 2018

У меня есть два списка, содержащие имена клиентов. Имена могут быть похожими или разными. Как найти сходство между этими двумя списками, используя python?

После сходства я хочу получить соответствующие данные из одного файла Excel в другой.

пример:

Список 1:

Customer Name       Unique ID
IBM                 2365
BOA                 5456
BMW AG              2456

Список 2:

Customer Name     Unique ID
IBM Pvt Ltd        
BMW Group
Robert Bosch
BOA Ltd

Это просто пример данных. Фактические данные содержат почти 300 тыс. Строк.

Я попробовал Сходство по Джакарду, передав два списка отдельно в виде файлов Excel в функцию, но результат (т. Е. Сходство по Джакарду) всегда равен нулю.

Редактировать: Как перебрать оба списка, сравнить каждый элемент со всеми элементами другого списка и построить матрицу расстояний?

Затем я хотел бы отсортировать каждую строку этой матрицы в порядке убывания, чтобы узнать наиболее близкое соответствие между ними. Или есть какой-то другой лучший способ узнать наиболее близкое совпадение после построения матрицы?

1 Ответ

0 голосов
/ 26 ноября 2018

Не могли бы вы уточнить и прояснить свой вопрос?

Что вы подразумеваете под Сходством между двумя списками?

Когда вы говорите «Список», вы имеете в виду «Список CSV / Excel» или «Список Python». Если вы смотрите на расстояние между струнами, вам, возможно, придется взглянуть на алгоритм Левенштейна. https://www.geeksforgeeks.org/edit-distance-dp-5/

Pythonic - https://www.python -course.eu / levenshtein_distance.php .

Поскольку ваш размер данных огромен, Alsp Check использует стратегию внешней сортировки слиянием

...