Возможно, это не лучшее решение, но, возможно, вы можете попробовать рекомендующую систему? Более конкретно, вы можете попробовать Item-Item Content-based систему рекомендаций. Идея состоит в том, чтобы извлечь элементы из самих элементов (элементы в вашем случае означают описание продукта). Создаются профили элементов, которые представляют собой элементы для элемента, которые могут быть весом tf-idf или просто схемой взвешивания по частоте. После создания этих функций для каждого элемента вы хотите найти наиболее похожие элементы для данного элемента. Это может быть сделано с использованием некоторой меры сходства, такой как косинусное расстояние или расстояние по Джакарде. Предметы, возвращенные с наивысшим показателем сходства, будут означать большинство похожих предметов. Вероятно, верхний будет того же продукта, что и данный продукт ввода.
Прежде чем опробовать описанный выше подход, просто используйте cosine distance
для всех пар элемент-элемент, указав в качестве аргументов два названия продукта. Прочитайте этот ответ