Допустим, я хочу определить вероятность того, что я буду задавать вопрос о SO, основываясь только на том, какие теги присутствуют или отсутствуют.
Давайте также представим, что у меня есть много данных о прошлых вопросах, которые я задал или не задал.
Есть ли алгоритм машинного обучения, который мог бы взять эти исторические данные, обучиться им, а затем быть в состоянии предсказать вероятность моего повышения на будущие вопросы? Обратите внимание, что это должна быть вероятность , а не просто произвольная оценка.
Предположим, что с любым заданным вопросом будет связано до 7 тегов, которые взяты из надмножества десятков тысяч.
Я надеюсь, что он способен создавать довольно сложные связи между тегами, а не с каждым тегом, просто вносящим вклад в конечный результат "линейным" способом (как это делают слова в байесовском фильтре спама).
Так, например, может случиться так, что слово «java» увеличивает вероятность моего повышения, за исключением случаев, когда оно присутствует с «базой данных», однако «база данных» может увеличить вероятность моего повышения, если присутствует с «ruby».
О, и это должно быть разумно с точки зрения вычислений (обучение в течение часа или двух по миллионам вопросов).
Какие подходы я должен исследовать здесь?