Я читал эту статью о сегментации изображения.В приложении к статье дается, что двоичные метки X = {xp} изображения получаются путем минимизации энергии E (x) [Boykov and Jolly 2001]
где λ - вес (установлен во всех экспериментах на 60), Ed (xp) - термин данных, кодирующий стоимость, когда метка пикселя p равна xp (1 - передний план, 0 - фон)), и Ec (xp, xq) - термин контрастности, обозначающий стоимость маркировки двух смежных пикселей p и q.Мы используем следующий контрастный термин: Ec (xp, xq) = | xp - xq |· (Β · || Ip - Iq || + ε) ^ - 1, где ε = 0,05 и β = ⟨|| Ip - Iq || ^ 2⟩ ^ −1 [Blake et al.2004].Здесь ⟨·⟩ - оператор ожидания для всего изображения.
Термин данных Ed (xp) уравнения равен
где K - достаточно большая константа, Lfp = - ln pf (Ip) и Lbp = - ln pb (Ip), SB - «жесткие» фоновые каракули (каракули, нарисованные, когда пользователи расширяют фон), а Ip - цвет изображения вpixel p.
Если мне не хватает определения какого-либо термина, его можно найти в статье.
Я не могу понять основы этого.Предположим, пользователь щелкнул мышью в точке (x, y) на изображении.Как с этой точки рассчитываются двоичные метки?(Они используют вырезание Boykov и Jolly Graph, аналогично классу GCGRAPH в файле gcgraph.hpp в OpenCV)