Basi c вопрос - итерация по столбцу pandas dataframe с использованием функции - PullRequest
2 голосов
/ 01 марта 2020

Я борюсь с основами. У меня есть только один столбец с именами в pandas dataframe, и я хочу сравнить строки для потенциальных дубликатов, используя 3-4 функции из библиотеки fuzzywuzzy. Итак, первое имя, которое я хочу сравнить с остальным содержимым столбца, затем второе имя и так далее. Колонка будет иметь сотни, если не тысячи имен. Я хочу создать df с комбинацией имен, для которой хотя бы одно из значений выше 80.

Нужно ли создавать список из этого df? Извините, я знаю, что это очень просто c Я просто не могу найти решение сам.

1 Ответ

0 голосов
/ 24 марта 2020

Итак, в конце концов я нашел другой подход к моей проблеме. Вместо того, чтобы делать список 80k против 80k, я использовал функцию itertools.combination, которая дает вам уникальные комбинации, которые идеально подходят для этого сценария.

...