Я работаю над созданием сервиса typeahead, который можно использовать для поиска множества разных вещей.Я думал о создании модели классификации текста для классификации этих поисков, прежде чем приступить к поиску.
Вот пример результата, который я хотел бы получить от модели классификации.
Вход
John Smith
Выход
[
{
"likeliness": .6,
"category": "car-name-typeahead-search"
},
{
"likeliness": .9,
"category": "person-name-typeahead-search"
},
{
"likeliness": .1,
"category": "vin-typeahead-search"
},
{
"likeliness": .2,
"category": "help-page"
},
{
"likeliness": .2,
"category": "faq-page"
}
]
Тогда я 'взять категории, которые имеют вероятность выше некоторого значения, и фактически выполнить поиск заголовка.Также я бы вернул результаты, упорядоченные по рангу вероятности.
Мы собирали данные о поисках людей и отслеживали то, что они действительно искали, поэтому у нас должны быть данные, необходимые для обучения модели классификации текста.
Мой вопрос: могут ли модели классификации текста быть достаточно быстрыми, чтобы их можно было использовать с услугой опережающего ввода текста, и не были ли они слишком дорогими?Существуют ли определенные типы алгоритмов классификации текста, на которые мне следует обратить внимание?