У нашей компании есть много проблемных данных, которые хранятся в базе данных. Мы хотим создать поисковую систему, чтобы люди могли проверять, как проблемы решались ранее. Мы не можем использовать сторонние API, как есть. конфиденциальные данные, и мы хотим сохранить их как дома. Прямо сейчас подход следующий: -
- Очистите данные и затем используйте DOC2VEC для представления каждой проблемы в виде вектора.
- Найдите ближайшую 5 проблему, используя некоторую метрику расстояния.
Проблема в том, что результаты совсем не полезны. Проблема в том, что большая часть данных представляет собой один лайнер и описание проблемы. Есть орфографические ошибки, следы стека и другие вещи.
Это правильный подход или мы должны переключиться на что-то другое?
Прямо сейчас мы тестируем данные 200K.
Спасибо за помощь.