Я хочу найти похожие темы в train_dict для данного test_dict. У меня есть два словаря - train_dict и test_dict. Я не уверен, как найти похожие или близкие темы для train_dict для каждого документа в test_dict. Я столкнулся с дивергенцией KL, это одна из техник, которая используется для этого. Но я не уверен, как использовать это в этом контексте.
train_dict = {490514.0: {0: 0.039169986,
1: 0.023344912,
2: 0.028936442,
3: 0.022125904,
4: 0.040051,
5: 0.030525777,
6: 0.06751838,
7: 0.59827864,
8: 0.023744604,
9: 0.04026981,
10: 0.044118173,
11: 0.041916344},
489733.0: {0: 0.012707975,
1: 0.5981753,
4: 0.012993803,
6: 0.021207014,
7: 0.010705788,
9: 0.07442666,
10: 0.22201125,
11: 0.01359898},
497410.0: {0: 0.012707975,
1: 0.5981752,
4: 0.012993803,
6: 0.021207014,
7: 0.010705788,
9: 0.07442666,
10: 0.22201134,
11: 0.01359898}}
test_dict = {85.0: {0: 0.28180935978889465,
1: 0.02879604697227478,
2: 0.0356932207942009,
3: 0.027292393147945404,
4: 0.2815341353416443,
5: 0.03765367344021797,
6: 0.08200311660766602,
7: 0.04070392623543739,
8: 0.029300140216946602,
9: 0.04947005212306976,
10: 0.05403999984264374,
11: 0.051703985780477524},
86.0: {0: 0.28180935978889465,
1: 0.028796043246984482,
2: 0.0356932170689106,
3: 0.027292391285300255,
4: 0.2815358638763428,
5: 0.03765366971492767,
6: 0.08200132846832275,
7: 0.040703922510147095,
8: 0.02930011972784996,
9: 0.049470048397779465,
10: 0.05403999239206314,
11: 0.05170397832989693}}
Найти расхождение Куллера между тестом и тестом. Я хочу найти 2 верхних ближайших пункта, чтобы проверить dict по значениям dict поезда. Я не уверен, как рассчитать это.