Контекст. Рассматривайте каждый набор в G
как набор файлов (содержимого или хэшей MD5, а не имен), которые находятся на конкретном компьютере.
Предположим, у меня есть гигантский список наборов G
и неизвестный мне список наборов H
. Каждый отдельный набор I
в G
был создан путем объединения некоторого неизвестного числа наборов из списка H
, а затем добавления и удаления неизвестного количества элементов.
Теперь я мог бы использовать другие данные для построения нескольких наборов в списке H
. Тем не менее, я чувствую, что может быть какая-то техника, включающая байесовскую вероятность , чтобы сделать это. Например. что-то вроде: «Если нахождение X
в наборе в G
означает, что существует высокая вероятность также нахождения Y
, то, вероятно, в H
есть набор, содержащий как X
, так и Y
».
Редактировать: Моя цель - создать набор множеств, который с высокой вероятностью очень похож или равен H
.
Есть мысли?
Пример использования:
Сжать G
, заменив его куски кусочками H
, например,
G[1] = {1,2,3,5,6,7,9,10,11}
H[5] = {1,2,3}
H[6] = {5,6,7,8,9,10}
G[1]' = {H[5],H[6],-8,11}