Вы, вероятно, хотите посмотреть статистику для этого:
- с тегом X
- отметьте все остальные теги Y
- посчитайте, как часто Y и X появляются одновременно
- разделите на то, как часто Y появляется
- ???
- Profit !!!
Что касается дополнительной информации на шаге 5: эта информация изменяется очень медленно, поэтому вы действительно можете кэшировать этот материал и воссоздавать его только тогда, когда у вас есть время.
В конце концов вы хотите отношения
conditional_probability(X, Y, P)
Что говорит о том, насколько вероятен (P) тег Y, учитывая X. P был вычислен на шаге 4.