Возможные алгоритмы решения этой проблемы - PullRequest
0 голосов
/ 30 апреля 2019

У меня есть список извлеченных названий одного отеля, и это имена, взятые n сайтами об одном и том же отеле. Список содержит m названий об 1 отеле. Я должен выбрать одно имя из списка на основе правильности, сходства, меньше ошибок. Как мне этого добиться? Любое направление полезно.

Пример: список имен для hotelId 1 {"ABC Hotel", "CDE hotel", "Hotel ABC", "AB Hotel", "Hotel BCA" ...}

При первоначальном исследовании это выглядит как проблема, связанная с графиком

Ответы [ 2 ]

0 голосов
/ 30 апреля 2019

Вы можете попытаться использовать некоторые из API Bing или Google -> т.е. выполнить поиск по названию отеля с некоторыми сведениями из адреса в API поиска или в некоторых картах APIS (например, выполнить поиск ["ABC Hotel 5AV Philliadelphia", "CDE hotel 5AV Philliadelphia", "Hotel ABC 5AV Philliadelphia", ..] затем сравните свои данные с ответом API.

0 голосов
/ 30 апреля 2019

Это не сработает. Вы не получите сходства на основе имен. Особенно, если почти в каждом отеле есть ключевое слово hotel в своем названии.

Вам нужно больше информации, чтобы соответствовать сходствам. Адрес, географическое положение, атрибуты об отеле также могут помочь (Wi-Fi, парковка, рядом с пляжем, бассейном), если это цепь и так далее. Чем больше информации вы получите, тем лучше будет результат поиска.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...