Механический турок работает? - PullRequest
2 голосов
/ 10 ноября 2010

Я разместил следующий вопрос в другой теме:

«Кто-нибудь знает хорошее решение, которое можно использовать с php, которое эффективно удалит контактную информацию, такую ​​как номера телефонов, адреса электронной почты и, возможно, даже контактные адреса из документа?»

Мне быстро сказали, что я подозревал ... Я слишком много спрашиваю:)

Так что теперь я ищу альтернативные решения. Один из вариантов, который я рассматриваю, - это использование Amazon Mechanical Turk для удаления контактной информации.

Итак, два вопроса?

  1. Это было бы хорошо для механического турка?
  2. Насколько эффективен сервис?

1 Ответ

2 голосов
/ 10 ноября 2010

Проверьте http://www.microtask.com. (я не связан с этой компанией.)

Возможно, вам удастся создать широкую сеть с вашими регулярными выражениями, а затем попросить работников по работе выяснить реальные адреса, номера телефонов и адреса электронной почты. Является ли «такой-то и такой-то» адрес, номер телефона или адрес электронной почты - довольно простой вопрос для человека.

Поскольку они разбирают форму (или говорят, что я ее использую - я ее не использовал), вам не нужно беспокоиться о проблемах конфиденциальности или, возможно, сможете их оправдать. Если у MicroTask есть сотни клиентов, они могут взять все микрозадачи и выбросить их в гигантский бункер, который рандомизирует, какие из них видит каждый отдельный работник. Следовательно, они могут фактически гарантировать, что у работников почти не будет средств для сопоставления какой-либо конфиденциальной информации, с которой они работают. Каждый работник будет видеть тысячи независимых частей информации каждый день. В этих условиях, кто сможет различить, что Задача 347 в первый день имела адрес электронной почты, соответствующий Задаче 1133 в третий день? Даже если бы они могли, это вряд ли стоит им. Они, вероятно, заработают больше денег, просто делая то, что от них требуется.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...