Это для http://cssfingerprint.com
У меня есть система (подробности см. На странице сайта), где:
- Мне нужно вывести ранжированный список с доверием,категорий, которые соответствуют определенному вектору признаков
- , векторы двоичных элементов представляют собой список идентификаторов сайтов, и обнаружил ли этот сеанс попадания
- векторы функций, для данной классификации, несколько шумят (сайтыисчезнет из истории, и люди будут посещать сайты, которые они обычно не посещают)
- категории - это большой, закрытый набор (идентификаторы пользователей)
- мое общее пространство функций составляет приблизительно 50миллион элементов (URL)
- для любого данного теста, я могу запросить только ок.0,2% от этого пространства
- Я могу только принять решение что запрашивать, основываясь на результатах до сих пор, ~ 10-30 раз, и должен делать это в течение <~ 100 мс (хотяЯ могу потратить гораздо больше времени на постобработку, соответствующую агрегацию и т. Д.) </li>
- Получение рейтинга вероятности категорий ИИ на основе результатов пока незначительно дорог;в идеале решение будет зависеть в основном от нескольких дешевых SQL-запросов
- У меня есть обучающие данные, которые могут достоверно сказать, что любые два вектора функций относятся к одной и той же категории, но не то, что они разные (люди иногда забывают свои коды и используют новыетем самым создавая новый идентификатор пользователя)
Мне нужен алгоритм, чтобы определить, какие функции (сайты) с наибольшей вероятностью будут иметь высокую рентабельность инвестиций для запроса (т. е. чтобы лучше различать правдоподобные до сих пор)категории [пользователи] и для повышения уверенности в том, что она является какой-либо данной.)
Это должно учитывать баланс между эксплуатацией (тестирование на основе данных предыдущих тестов) и разведкой (тестовые материалы, которые не были достаточно протестированы, чтобы выяснить,как это работает).
Есть еще один вопрос , который касается априорного рейтинга;в данном случае речь идет о апостериорном рейтинге, основанном на результатах, собранных до сих пор.
В настоящее время у меня достаточно данных, чтобы я всегда мог проверить все , что кто-либоеще кто-то получил хит, но в конечном итоге это будет не так, и в этот момент эту проблему нужно будет решить.
Я полагаю, что это довольно стандартная проблема в ИИ - иметь дешевуюЭвристика для того, какие дорогостоящие запросы сделать - но это не освещалось в моем классе ИИ, поэтому я не знаю, есть ли стандартный ответ.Таким образом, полезное чтение, не слишком сложное для математики, было бы полезно, а также предложения для конкретных алгоритмов.
Какой хороший способ решения этой проблемы?