Как измерить актуальность автоответчика адреса? - PullRequest
1 голос
/ 31 марта 2020

Я довольно новичок в мире самовнушения. Моя область интересов состоит в том, чтобы предоставить лучшие «N» адресные предложения (выход) для частичного адреса (вход). Например, как это делают карты Google или приложение Uber, когда вы вводите частичный адрес.

Я исследовал несколько технологий, таких как Elasti c Подсказка по завершению поиска, Apache Компонент предложения Solr.

Я придумал несколько комбинаций запросов и индексов данных, чтобы выполнить наилучшую строку с доступной геопространственной информацией, такой как геокод (широта, долгота) или город или штат (варьируется от страны к стране, например, провинции в Японии).

[Дополнительный вопрос-1: что лучше Apache Solr vs Elasti c Поиск этого варианта использования?]

Предположим, что существует стандартное адресное хранилище данных (удержание около 100 миллионов адресов) для предложения адресов (вывод) и есть набор частичных адресов (например, около 100 тыс. адресов). Также предположим, что мне известны полные адреса для частичных частичных адресов 100 К или, другими словами, я знаю предполагаемое значение завершения этих частичных адресов.

Теперь я хочу провести эксперименты и оценить каждую комбинацию на основе релевантности. предлагаемого адреса.

Вот мое текущее понимание измерения релевантности:

key stroke versus matching percentage (using levenshtein distance algo) of suggested address with partial address * (multiply by) 1/N position-number in the suggestion list.

Я хочу математически вывести качество моих предложений. Пожалуйста, оцените приведенную выше формулу измерения (это может быть совершенно неверно, но, пожалуйста, объясните причину этого).

[Вопрос-2] Как измерить релевантность в этом случае использования?

Также я прочитал пару статей об измерении качества рекомендованного двигателя / системы, которые говорили о Mean Average Precision или Mean Absolute Error или Mean Squared Error или Root Mean Squared Error.

[Вопрос-3] Применяются ли стратегии для измерения актуальности применения предложения адреса?

...