Допустим, у нас есть строки в группе 1:
list
, list of discount offers
, specific discount offers
, discount offer
, discount offer details
и, например, другой набор строк в группе 2:
Add to basket button
, basket button
, Add
Чего я хочу добиться, так это выбрать представителя из каждой группы. Каждый представитель группы должен выбираться по наиболее распространенной подстроке из группы, но не исключать уникальные строки.
Например, в группе 1 я бы сказал, что представители list of discount offers
, specific discount offers
, discount offer details
. В группе 2 это должно быть Add to basket button
, поскольку оно содержит обе строки, хотя add
и basket button
встречаются в общей сложности два раза каждая.
Есть ли какая-то функция в python, которая подходит для такой вещи лучше всего? Я не смог найти ничего разумного.