Я ищу алгоритм, который может группировать списки строк, которые имеют почти одинаковое содержимое.
Это пример списков. Всего есть 5 разных слов.
A = ['first', 'second', 'third']
B = ['first', 'forth']
C = ['second', 'third']
D = ['first', 'third']
E = ['first', 'fifth']
F = ['fourth', 'fifth']
Вы можете видеть, что у A, C и D много общего, а также B, E и F.
Я думал о Алгоритм кластеризации, который может дать почти один и тот же список одному и тому же кластеру.
Я хочу, чтобы два кластера были уверены, что одно слово находится хотя бы в одном кластере.
В этом примере списка A, C и D должен иметь кластер 1
и кластер B, E и F 2.
Есть ли в Python алгоритм (или машинное обучение), который можно использовать для задач такого типа