Я довольно новичок в мире самовнушения. Моя область интересов состоит в том, чтобы предоставить лучшие «N» адресные предложения (выход) для частичного адреса (вход). Например, как это делают карты Google или приложение Uber, когда вы вводите частичный адрес.
Я исследовал несколько технологий, таких как Elasti c Подсказка по завершению поиска, Apache Компонент предложения Solr.
Я придумал несколько комбинаций запросов и индексов данных, чтобы выполнить наилучшую строку с доступной геопространственной информацией, такой как геокод (широта, долгота) или город или штат (варьируется от страны к стране, например, провинции в Японии).
[Дополнительный вопрос-1: что лучше Apache Solr vs Elasti c Поиск этого варианта использования?]
Предположим, что существует стандартное адресное хранилище данных (удержание около 100 миллионов адресов) для предложения адресов (вывод) и есть набор частичных адресов (например, около 100 тыс. адресов). Также предположим, что мне известны полные адреса для частичных частичных адресов 100 К или, другими словами, я знаю предполагаемое значение завершения этих частичных адресов.
Теперь я хочу провести эксперименты и оценить каждую комбинацию на основе релевантности. предлагаемого адреса.
Вот мое текущее понимание измерения релевантности:
key stroke versus matching percentage (using levenshtein distance algo) of suggested address with partial address * (multiply by) 1/N position-number in the suggestion list.
Я хочу математически вывести качество моих предложений. Пожалуйста, оцените приведенную выше формулу измерения (это может быть совершенно неверно, но, пожалуйста, объясните причину этого).
[Вопрос-2] Как измерить релевантность в этом случае использования?
Также я прочитал пару статей об измерении качества рекомендованного двигателя / системы, которые говорили о Mean Average Precision
или Mean Absolute Error
или Mean Squared Error
или Root Mean Squared Error
.
[Вопрос-3] Применяются ли стратегии для измерения актуальности применения предложения адреса?