Я пишу мост между пользователем и поисковой системой, а не поисковой системой. Часть моей добавленной стоимости будет выводить цель запроса. Назначение номера для отслеживания, биржевого символа или адреса довольно очевидно. Если я могу классифицировать запрос, то я могу решить, нужно ли пользователю видеть результаты поиска. Конечно, если я не могу, то они увидят результаты поиска. В настоящее время я разрабатываю этот механизм вывода.
Я пишу парсер; он должен взять любой данный токен и назначить ему категорию. Вот несколько теоретических примеров на английском языке:
- "Денвер" - это USCITY и PLACENAME
- "aapl" - это NASDAQSYMBOL и STOCKTICKERSYMBOL
- "555 555 5555" - это USPHONENUMBER
Я знаю, что каждый из этих случаев, скорее всего, потребует особой обработки, однако я не уверен, с чего начать.
В идеале я хотел бы получить что-то простое, например:
queryCategory = magicCategoryFinder( query )
>print queryCategory
>"SOMECATEGORY or a list"