Алгоритм сортировки изображений по релевантности - PullRequest
3 голосов
/ 26 июня 2010

Я разрабатываю на сайте форума функцию, которая позволит включать в сообщение ссылку и другой тип контента (для уточнения вопроса или ответа).

В связи с реализацией функции ссылки у меня есть несколько вещей, над которыми нужно работать:

  1. Проверить введенный URI (правильно сформированный, действующая схема и т. Д.)
  2. Проверить, существует ли удаленный ресурс
  3. Извлечение изображений с удаленной страницы
  4. Покажите пользователю набор изображений и дайте ему выбрать одно

Вот идет вызов . Перед шагом 4 было бы здорово отсортировать этот набор изображений в порядке « релевантность ». Я знаю, что это довольно двусмысленная цель :-), но я могу объяснить, через что я прошел, результатами, приведенными на шаге 4, и вы поймете, почему я имею дело с этим решением.

Много раз я получаю такие вещи в набор изображений:

  • изображения, используемые для макета страницы (крошечные и бесполезные)
  • Баннеры и реклама
  • Псевдодублирование изображений (оригинал и изображение с измененным размером)
  • Анархический порядок набора (логотип на последней позиции и т. Д.)

Я решил убрать этот беспорядок, удалив крошечные изображения и отсортировав их по размеру, но я знаю, что это будет далеко от хорошего решения.

Есть идеи на этот счет ???

Большое спасибо!

Ответы [ 2 ]

2 голосов
/ 27 июня 2010

Вы можете отсортировать по насыщенности (что является хорошим показателем того, насколько интересным может быть изображение), взгляните на вопрос " Классификация изображений - Определение планов этажей " для примера реализации .

Самое сложное - это отделить графические объявления от обычных изображений (поскольку они предназначены для очень интересных), для этого я предлагаю одно или несколько из следующих возможных решений.:

  • игнорировать изображения со стандартными размерами объявлений
  • дважды запрашивать страницу и игнорировать изображения, которые меняются (объявления, как правило, динамические)
  • игнорировать размещенные изображенияна внешних сайтах (следите за CDN!) или на определенных URL для показа рекламы

Чтобы решить проблему дублированных изображений в разрешении, вы можете изменить их размер до очень низкого разрешения (например, 8x8 или 4x4) иесли два или более изображения одинаковы, игнорируйте маленький (ые) один (ие).

0 голосов
/ 26 июня 2010

Возможно, вы также захотите отсортировать изображения по месту их размещения - сначала изображения, размещенные на сайте, затем изображения за пределами сайта. В наши дни большинство рекламных изображений размещаются на сторонних серверах, поэтому зачастую более подходящими являются локальные изображения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...