Какая мера указывает на плавное изменение данных? - PullRequest
0 голосов
/ 02 мая 2011

Я пытаюсь сравнить текстовые и нетекстовые области на основе толщины линий / штрихов.Используя преобразование расстояния и некоторое время после этого, удалось получить толщину (фактически половину толщины) каждого штриха, содержащего элементы на рисунке.

Вот типичный результат выполнения программы:

1.Text область

34444433343554335533553555545544455445533444444344455435553335545556665444445654444444444444444444444444455434554554455444456544444445555445555543355556665544665444535444553354434553444444444444455444445544444454444444444444444444444444455442444444554444444544444444444444554444456444554414454444444444444444444554444445543454445443444544434443344443334442133223332221

  1. Нетекстовые

Так есть ли какой-либо статистический критерий, более сложный, чем стандартное отклонение, который будет указывать на разницу в двух наборах данных: один изменяется постепенно, а второй имеет резкие различия?(включая страшные числа, чтобы проиллюстрировать то, что я пытаюсь квантовать!)

Также обратите внимание, что количество точек данных не будет одинаковым, так как я буду сравнивать разные регионы с некоторым экспериментально определенным порогомСД (или какая-то другая мера), а не регионы между собой.

Ответы [ 2 ]

3 голосов
/ 02 мая 2011

Если вы заинтересованы в измерении гладкости, стандартное отклонение разностей между смежными толщинами должно быть намного меньше для текста, чем для нетекстового.

Таким образом, вы можете просто преобразовать **

1006

34444433343554335533553555545544455445533444444344455435553335545556665444445654444444444444444444444444455434554554455444456544444445555445555543355556665544665444535444553354434553444444444444455444445544444454444444444444444444444444455442444444554444444544444444444444554444456444554414454444444444444444444554444445543454445443444544434443344443334442133223332221

* * * +1009 1010 * в

1000 (-1) 000 ...

* * 1016 (1 = 4-3, 0 = 4-4 и т. Д.).Стандартное отклонение этого списка отличий мало для текстовых областей (в вашем примере этот список содержит много нулей).

Если вам нужно продолжать использовать числа от 0 до 9 для разницы толщины между толщинами t1 и толщина t2, вы можете выполнить масштабирование: round((t2-t1+9)/2).

2 голосов
/ 02 мая 2011

Мне приходит в голову мысль, что вы можете выполнить вейвлет-преобразование на фрагменте, а затем посмотреть на среднюю энергию, связанную с высокочастотными вейвлетами.

Если вы не знакомы с вейвлетами, проще всего описать это вейвлет Хаара . Предполагая, что количество выбранных вами точек составляет 2 n , вы можете рассчитать это следующим образом:

  1. Разделите ваши данные на пары точек.
  2. Возьмите половину разницы. Это коэффициент детализации вейвлета.
  3. Возьмите среднее значение каждой пары. Это дает вам 2 n-1 очков. Рекурсивно делать вейвлет-преобразование на тех.

Для каждого уровня вейвлета Хаара возьмите среднее значение квадрата коэффициента. Если ваши данные действительно похожи на то, что вы описали, эта статистика для первых нескольких уровней будет сильно отличаться. Поэкспериментируйте, решите, где находится ваш порог, и у вас, вероятно, будет довольно надежный тест. (Я бы рекомендовал иметь 3 возможных ответа из вашего теста: «Текст», «Не текст», «неясно». Посмотрите на «неясные» примеры, а затем улучшите свой тест.)

...