Оценка надежности краудсорсинга - обнаружение спама / мошенничества - PullRequest
1 голос
/ 26 августа 2011

Я хотел бы получить некоторую географическую информацию от пользователей сайта - для данного набора данных они отметят флажок, указывающий, имеет ли место данное свойство или нет Существуют ли какие-либо инструменты / структуры для обнаружения случаев мошенничества или спама на основе всего собранного набора данных (и, возможно, другой информации)? Я хотел бы получить отфильтрованные, более надежные данные.

1 Ответ

2 голосов
/ 29 августа 2011

Не уверен, что это именно то, о чем вы просите, но вот несколько советов из моего опыта использования Amazon Turk:

Есть несколько научных статей, посвященных таким проблемам. здесь хороший.Кроме того, на основе следующих общих рекомендаций я создал пользовательскую процедуру, которая работала с моими данными:

a.Включите открытый вопрос и отфильтруйте случаи, когда на него не было ответа.На такой вопрос сложнее ответить автоматически, и для мошенника это может занять больше времени, а значит, и менее привлекательно.

b.Если возможно, не используйте двоичную шкалу (например, флажок), но некоторые оценки (например, 1-4 или 1-6).Это даст вам больше данных для работы.

c.Если возможно, отфильтруйте случаи, когда время, затраченное на заполнение формы, было слишком коротким.(особенно полезно, если вы включите этот открытый вопрос)

d.Если у вас есть несколько входов на пользователя, проверьте наличие повторяющихся ответов и пользователей, которые постоянно дают далеко не средние ответы.Если каждый пользователь отправляет только одну «форму», рассмотрите возможность добавления в него более одного элемента / вопроса, поэтому вы получите несколько представлений для каждого пользователя.

e.Если у вас есть только одна заявка на пользователя или идентификатор пользователя, ваши возможности более ограничены.Я могу предложить отфильтровать внешние данные (например, точки данных дальше, чем на 3 стандартных отклонения от среднего), если у вас достаточно данных.

f.После всей фильтрации проверьте соответствие или несогласие в ваших данных (например, путем проверки того, какая доля ваших данных попадает в x стандартных отклонений от среднего значения).В случае согласия используйте среднее;в случае разногласий соберите больше данных.

Надеюсь, это поможет,

...