Вот подход, который находит его в статистике - в частности, он использует скрытую марковскую модель (http://en.wikipedia.org/wiki/Hidden_Markov_model):
1) Используйте процесс сопоставления, чтобы получить очищенный список возможных событий. Считайте каждое событие помеченным как «истинное» или «поддельное», даже если отметки скрыты от вас. Вы можете себе представить, что какой-то источник событий производит их, генерируя их как «истинные» или «поддельные» в соответствии с вероятностью, которая является неизвестным параметром.
2) Свяжите неизвестные параметры с каждым источником списков. Они дают вероятность того, что этот источник сообщит об истинном событии, произведенном источником событий, и вероятность того, что он сообщит о поддельном событии, произведенном источником.
3) Обратите внимание, что если бы вы могли видеть маркировку «истинно» или «фальшиво», вы могли бы легко определить вероятности для каждого источника. К сожалению, конечно, вы не можете видеть эти скрытые маркировки.
4) Давайте назовем эти скрытые маркировки «скрытыми переменными», потому что тогда вы можете использовать http://en.wikipedia.org/wiki/Em_algorithm для выбора вершины для многообещающих решений этой проблемы, начиная со случайного запуска.
5) Очевидно, что вы можете усложнить задачу, разделив события на классы и предоставив источники параметров перечисления, которые повышают вероятность того, что они сообщат о некоторых классах событий, чем о других. Это может быть полезно, если у вас есть источники, которые чрезвычайно надежны для некоторых видов событий.