Если вы хотите оценить сходство магазинов в отношении их товаров, то вы можете использовать:
Одно горячее кодирование
Тогда каждый магазин может быть описан вектором с длиной n = количество всех товаров среди всех магазинов, например:
банан
оранжевый
яблоко
груша
слива
tangerin
малина
помидор
дыня
,
,
.
Store_1 тогда описывается как 1 1 1 1 1 0 0 0 0 0 ...
Store_2 1 0 0 1 0 1 1 1 0 ...
Это дает вам числовой вектор, где вы можете вычислить меру различия, такую как евклидово расстояние.