Методы искусственного интеллекта для обнаружения мошенничества в играх - PullRequest
14 голосов
/ 21 сентября 2011

Моя дневная работа - это небольшая игра с браузерной онлайн-игрой. На самом деле, большинство наших сотрудников - волонтеры.

Сегодня я сосредоточен на одном аспекте. Я хочу создать систему искусственного интеллекта, которая будет анализировать базу данных наших пользователей и сообщать об учетных записях, которые могут быть запущены одним и тем же пользователем, что явно противоречит нашим условиям. Этот «обман» является основной потерей времени для наших сотрудников, и если я смогу ускорить его, предоставив им краткий список имен для проверки ПЕРВЫМ, я бы сделал это.

Проблема в том, что я плохо разбираюсь в искусственном интеллекте. Я очень хорошо понимаю основы, но в настоящее время не реализовал решение. Я читал об эвристических поисках, в частности, поисках A *, и я «думаю», что это может быть подходящим для того, что я ищу, но я не уверен.

Итак, мой вопрос здесь: используя поиск A *, можно ли было бы точно проанализировать данные двух учетных записей пользователей, такие как имя пользователя, пароль, электронная почта, взаимодействия между учетными записями, взаимодействия между другими пользователями, время входа в систему, время активности и т. Д. А если нет, знаете ли вы о системе, которая позволяла бы анализировать этот объем данных и давать «вероятность» того, что двумя учетными записями может управлять один и тот же человек?

Ответы [ 2 ]

23 голосов
/ 21 сентября 2011

По крайней мере, в значительной степени это моя дневная работа. Из вашего Вопроса, кажется, вы думаете о дисциплине Машинное обучение (а не о более широкой рубрике AI ). И я думаю, что ваши инстинкты верны - алгоритм ML идеально подходит для прогнозирования / обнаружения мошенничества, потому что он может обобщать в сильно нелинейной области и может адаптироваться (как новый данные к нему подаются). Таким образом, из-за этих двух основных характеристик мошенникам гораздо сложнее различить «правила» алгоритмов для прогнозирования, потому что эти правила на самом деле представляют собой сложный набор мягких ограничений, которые со временем меняются по мере обучения алгоритма. против новых данных. (Я мог бы предложить хотя и отложить в сторону A *, если у вас нет особой причины полагать, что поиск пути является полезной эвристикой для вашей проблемы - я не хочу говорить, что нет никакой связи, но если есть, то это, конечно, неортодоксальная - я никогда не видел, чтобы поиск путей применялся к такого рода проблемам).

Единственный факт, который вы упомянули о типе интернет-мошенничества, который вас интересует, - это наличие нескольких учетных записей одним пользователем. Без сомнения, здесь могут быть применены различные методы, но я упомяну один аналитический метод, в частности, потому что: (i) я фактически использовал его в упомянутом вами сценарии; и (ii) пока что выходит за рамки других Ответов.

Техника основана на теории графов .

Предпосылка: учетные записи, принадлежащие одному и тому же пользователю, часто лучше всего идентифицируются не по их индивидуальному поведению (потоку кликов), а по их отношениям друг с другом - другими словами по их поведению в сети .

Пример: чип-дампинг в онлайн-покере. Здесь человек открывает несколько новых учетных записей на покерном сайте (используя поддельную информацию), а затем запрашивает объявленный бонус для каждого счета (например, депозит в размере 100 долларов США соответствует бонус $ 100). Конечно, у бонуса есть весьма ограничительные «правила вывода средств», обычно это пороговое количество раздач, которые разыгрываются до того, как бонус становится похожим на наличные, и могут быть сняты со счетов игрока в виде наличных.

Итак, цель сброса фишек - превратить эти бонусные доллары в реальные деньги. Один человек открывает пять отдельных учетных записей (как пять разных людей), а затем открывает еще одну «законную» учетную запись (используя свою подлинную личность). Эти шесть игроков - опять же, фактически, один игрок - будут играть за столом один друг против друга, и пять фиктивных аккаунтов быстро потеряют свои стеки на законный счет, который быстро обналичит их выигрыши из-за Разумеется, ограничения на вывод бонусов применяются только к счету, на который они были первоначально предоставлены; следовательно, ограничения на вывод средств полностью обойдены.

Что сложно в этом типе схемы, так это то, что незаконное поведение практически невозможно обнаружить на индивидуальной основе - * плохое поведение, сговор , возникает в результате взаимодействия группы общих учетных записей * - иными словами, интересующее поведение необходимо изучить на уровне сети .

И, следовательно, Теория графов является естественной основой для анализа.

Техника, которую я применил, основана на академической статье Chau et al. в Carnegie Mellon, под названием Обнаружение мошеннических личностей в сетях онлайн-аукционистов (PDF).

Сценарий мошенничества, лежащий в основе этого документа, таков: продавец на eBay хочет продать очень дорогой товар (который он, вероятно, даже не имеет, но в любом случае не собирается отправлять его покупателю).) желающему покупателю.Чтобы побудить невинного покупателя добровольно участвовать в сделке, мошеннический продавец сначала приобретает очень высокую (искусственно завышенную) репутацию , участвуя в ряде «успешных» продаж товаров группе покупателей.;эти покупатели часто являются фиктивными счетами, контролируемыми покупателем.

В частности, авторы этого документа объединяют данные по двум уровням ( учетная запись уровень и сеть) уровень) с использованием алгоритма Распространение убеждений над марковским случайным полем .

Кстати, структура сигнатурного графаизвестный как двудольное ядро ​​, возникающее из группы учетных записей, которые имеют очень большое количество транзакций среди членов этой группы, но очень мало вне этой группы (то есть, состальная часть сообщества eBay).

3 голосов
/ 21 сентября 2011

Если у вас есть доступ к журналу игровых движений пользователя, вы можете использовать кластеризацию для группировки пользователей, которые играют в «похожие».Когда у вас есть кластеры, вы можете использовать IP для фильтрации пользователей внутри каждого кластера.

Другой подход может заключаться в использовании алгоритма контролируемого обучения, например Desicion-Trees , IBK и т. Д. Но для того, чтобы это работало, вам нужен обучающий набор с примерами пользователей, которые, как вы уже знаете, обманули.

Вы можете использовать Weka программное обеспечение для интеллектуального анализа данных, чтобы находить шаблоны внутри данных.,И у этого есть опция, чтобы соединиться непосредственно с базой данных.Он включает в себя кластеризацию, деревья решений, ibk и множество алгоритмов, которые можно попробовать.Но вам нужно общее понимание каждого алгоритма, чтобы интерпретировать результаты.

...