ai: определение тестов для получения наиболее полезных данных - PullRequest
0 голосов
/ 11 марта 2010

Это для http://cssfingerprint.com

У меня есть система (подробности см. На странице сайта), где:

  • Мне нужно вывести ранжированный список с доверием,категорий, которые соответствуют определенному вектору признаков
  • , векторы двоичных элементов представляют собой список идентификаторов сайтов, и обнаружил ли этот сеанс попадания
  • векторы функций, для данной классификации, несколько шумят (сайтыисчезнет из истории, и люди будут посещать сайты, которые они обычно не посещают)
  • категории - это большой, закрытый набор (идентификаторы пользователей)
  • мое общее пространство функций составляет приблизительно 50миллион элементов (URL)
  • для любого данного теста, я могу запросить только ок.0,2% от этого пространства
  • Я могу только принять решение что запрашивать, основываясь на результатах до сих пор, ~ 10-30 раз, и должен делать это в течение <~ 100 мс (хотяЯ могу потратить гораздо больше времени на постобработку, соответствующую агрегацию и т. Д.) </li>
  • Получение рейтинга вероятности категорий ИИ на основе результатов пока незначительно дорог;в идеале решение будет зависеть в основном от нескольких дешевых SQL-запросов
  • У меня есть обучающие данные, которые могут достоверно сказать, что любые два вектора функций относятся к одной и той же категории, но не то, что они разные (люди иногда забывают свои коды и используют новыетем самым создавая новый идентификатор пользователя)

Мне нужен алгоритм, чтобы определить, какие функции (сайты) с наибольшей вероятностью будут иметь высокую рентабельность инвестиций для запроса (т. е. чтобы лучше различать правдоподобные до сих пор)категории [пользователи] и для повышения уверенности в том, что она является какой-либо данной.)

Это должно учитывать баланс между эксплуатацией (тестирование на основе данных предыдущих тестов) и разведкой (тестовые материалы, которые не были достаточно протестированы, чтобы выяснить,как это работает).

Есть еще один вопрос , который касается априорного рейтинга;в данном случае речь идет о апостериорном рейтинге, основанном на результатах, собранных до сих пор.

В настоящее время у меня достаточно данных, чтобы я всегда мог проверить все , что кто-либоеще кто-то получил хит, но в конечном итоге это будет не так, и в этот момент эту проблему нужно будет решить.

Я полагаю, что это довольно стандартная проблема в ИИ - иметь дешевуюЭвристика для того, какие дорогостоящие запросы сделать - но это не освещалось в моем классе ИИ, поэтому я не знаю, есть ли стандартный ответ.Таким образом, полезное чтение, не слишком сложное для математики, было бы полезно, а также предложения для конкретных алгоритмов.

Какой хороший способ решения этой проблемы?

1 Ответ

0 голосов
/ 25 декабря 2010

Если вы ничего не знаете о функциях, которые вы не опробовали, то вам не о чем позаботиться, решая, исследовать или использовать ваши данные. Если вы можете выразить свою рентабельность инвестиций в виде единого числа после каждого запроса, то существует оптимальный способ сделать этот выбор, отслеживая верхние границы достоверности. См. Статью Конечный временной анализ проблемы многорукого бандита .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...