Я создаю семантическую поисковую систему, кодируя объекты в базе данных (в 512-мерных векторах), затем кодирую запрос и, наконец, использую алгоритм k-NN для поиска результатов.Результат хороший, но ..
Я хочу попробовать дополнить мои объекты дополнительными категориями из Википедии.Поэтому для каждого объекта я могу получить ноль или более дополнительных векторов (в зависимости от того, сколько слов найдено в Википедии).
Моя идея состоит в том, чтобы использовать numpy.average
для всех закодированных векторов (для каждого объекта), а затем использовать мой обычныйk-NN search.
Это оптимальный подход?Я чувствую, что усреднение векторов может не дать точного результата.