Каков наилучший метод интеллектуального анализа данных для поиска транспортных средств? - PullRequest
0 голосов
/ 23 апреля 2009

Я пытаюсь создать поисковую систему, которая просматривает онлайн-объявления о транспортных средствах, такие как Oodle, eBay motors и craigslist. У меня также есть большая база данных стандартных названий автомобилей и спецификаций о них. То, что я хотел бы сделать, - это чтобы каждая запись, которую я нашел через классифицированный сайт, была в состоянии точно определить, какая модель транспортного средства, стиль это (из моей базы данных). Например, стандартное имя для грузовика Ford в моей БД: 2003 Ford F150.

Однако на классифицированных сайтах люди могут называть это «2003 Ford F 150» или «2003 Ford f-150» или «03 Ford truck 150». Существует ли эффективный алгоритм интеллектуального анализа данных / классификации текста, позволяющий нормализовать эти тексты в соответствии со стандартным названием выше?

Ответы [ 2 ]

1 голос
/ 23 апреля 2009

Вы можете использовать расстояние Левенштейна , чтобы сопоставить найденную строку с записями вашей базы данных.

Еще одна (возможно, лучшая) идея - маркировать строки и использовать термин-векторную модель для названий транспортных средств. Таким образом, вы можете использовать косинусное сходство, чтобы найти соответствующие совпадения.

0 голосов
/ 05 декабря 2013

Если вы собираетесь разработать целую поисковую систему, предназначенную для масштабирования как по объему, так и по объему, вам понадобится что-то надежное для поддержки ваших запросов.

Если вы собираетесь использовать расстояние редактирования, Кровать - хорошая альтернатива для вашей структуры индекса. Другой хороший подход, в зависимости от размера вашего набора данных, - это использование автоматов Левенштейна . Автоматы Левенштейна также отлично подходят для обеспечения автозаполнения функций, которые могут вам понадобиться, поскольку вы разрабатываете поисковую систему.

Другой подход к редактированию расстояния заключается в использовании n-грамм в сочетании с индексом Жакара. Для этого подхода вы можете использовать Minhash + LSH . Также вы можете использовать Jaccard в качестве метрики расстояния (1 - индекс Джакарта), которая учитывает неравенство треугольника, таким образом, может использоваться в дереве метрик, таком как VP-tree .

Один из этих подходов, безусловно, поможет вам.

...