Попытка сделать поисковик по вопросам - PullRequest
0 голосов
/ 26 июня 2018

У нашей компании есть много проблемных данных, которые хранятся в базе данных. Мы хотим создать поисковую систему, чтобы люди могли проверять, как проблемы решались ранее. Мы не можем использовать сторонние API, как есть. конфиденциальные данные, и мы хотим сохранить их как дома. Прямо сейчас подход следующий: -

  1. Очистите данные и затем используйте DOC2VEC для представления каждой проблемы в виде вектора.
  2. Найдите ближайшую 5 проблему, используя некоторую метрику расстояния.

Проблема в том, что результаты совсем не полезны. Проблема в том, что большая часть данных представляет собой один лайнер и описание проблемы. Есть орфографические ошибки, следы стека и другие вещи.

Это правильный подход или мы должны переключиться на что-то другое? Прямо сейчас мы тестируем данные 200K. Спасибо за помощь.

...