Как оценить миллион изображений с помощью краудсорсинга - PullRequest
83 голосов
/ 03 октября 2008

Я хотел бы оценить коллекцию пейзажных изображений, создав игру, в которой посетители сайта могут оценивать их, чтобы узнать, какие изображения люди находят наиболее привлекательными.

Что было бы хорошим способом сделать это?

  • Стиль Hot-or-Not ? То есть показать одно изображение, попросите пользователя оценить его от 1 до 10. На мой взгляд, это позволяет мне усреднять баллы, и мне просто нужно обеспечить равномерное распределение голосов по всем изображениям. Довольно прост в реализации.
  • Выберите A-or-B ? То есть покажите два изображения, попросите пользователя выбрать лучшее. Это привлекательно, поскольку здесь нет числового ранжирования, это просто сравнение. Но как бы я это реализовал? Моей первой мыслью было сделать это как быструю сортировку, с операциями сравнения, выполняемыми людьми, и после завершения просто повторить сортировку до бесконечности.

Как бы вы сделали это?

Если вам нужны цифры, я говорю о одном миллионе изображений на сайте с 20 000 ежедневных посещений. Я полагаю, что небольшая часть может сыграть в игру ради аргумента, скажем, я могу производить 2000 операций сортировки людей в день! Это некоммерческий сайт, и любопытные найдут его в моем профиле:)

Ответы [ 12 ]

1 голос
/ 07 мая 2009

Мне нравится опция быстрой сортировки, но я бы сделал несколько твиков:

  • Сохраните результаты "сравнения" в БД, а затем усредните их.
  • Получите более одного сравнения для каждого просмотра, предоставив пользователю 4-6 изображений и попросив их отсортировать их.
  • Выберите, какие изображения отображать, запустив qsort, записав и обрезав все, что вам не хватает данных. Затем, когда у вас будет достаточно записей, выкладывайте страницу.

Другой забавный вариант - использовать толпу для обучения нейронной сети.

1 голос
/ 03 октября 2008

Выберите A-or-B , это самый простой и менее подверженный предвзятости, однако при каждом взаимодействии с человеком он дает вам значительно меньше информации Я думаю, что из-за уменьшения предвзятости, Пик превосходит и в пределе, он предоставляет вам ту же информацию.

Очень простая схема подсчета очков состоит в том, чтобы иметь счет для каждого изображения. Когда кто-то дает положительное сравнение, увеличивайте счет, когда кто-то дает отрицательное сравнение, уменьшайте счет.

Сортировка списка из 1 миллиона целочисленных значений выполняется очень быстро и занимает меньше секунды на современном компьютере.

Тем не менее, проблема довольно некорректна - вам понадобится 50 дней, чтобы показать каждое изображение только один раз.

Бьюсь об заклад, хотя вас больше интересуют самые высоко оцененные изображения? Таким образом, вы, вероятно, хотите сместить поиск изображений по прогнозируемому рейтингу - так что вы с большей вероятностью покажете изображения, которые уже достигли нескольких положительных сравнений. Таким образом, вы быстрее начнете показывать «интересные» изображения.

...