Я хотел бы получить информацию об алгоритмах, которые могут помочь выявить общность и различия между наборами перекрывающихся данных.
Используя систему тегов stackoverflow в качестве примера:
Допустим, этому вопросу было присвоено 5 тегов. Допустим, есть еще 1000 вопросов, у которых есть хотя бы один из этих тегов. Сколько из этих 1000 вопросов имеют общие теги, которых нет в моем исходном сообщении?
Еще один более простой способ описать это - система автоматической пометки тегов:
"Вы отметили свой вопрос [5 выбранных мной тегов]. Другие похожие вопросы были отмечены [список тегов, которые могут представлять интерес]. Где [список тегов, которые могут представлять интерес], часто встречающиеся теги, нет в моем оригинальном списке.
Примеры кода в c #, если это возможно:)