Question

Я пытаюсь создать поисковую систему, которая просматривает онлайн-объявления о транспортных средствах, такие как Oodle, eBay motors и craigslist. У меня также есть большая база данных стандартных названий автомобилей и спецификаций о них. То, что я хотел бы сделать, - это чтобы каждая запись, которую я нашел через классифицированный сайт, была в состоянии точно определить, какая модель транспортного средства, стиль это (из моей базы данных). Например, стандартное имя для грузовика Ford в моей БД: 2003 Ford F150.

Однако на классифицированных сайтах люди могут называть это «2003 Ford F 150» или «2003 Ford f-150» или «03 Ford truck 150». Существует ли эффективный алгоритм интеллектуального анализа данных / классификации текста, позволяющий нормализовать эти тексты в соответствии со стандартным названием выше?

Pankrat · Answer 1 · 23 апреля 2009

Вы можете использовать расстояние Левенштейна , чтобы сопоставить найденную строку с записями вашей базы данных.

Еще одна (возможно, лучшая) идея - маркировать строки и использовать термин-векторную модель для названий транспортных средств. Таким образом, вы можете использовать косинусное сходство, чтобы найти соответствующие совпадения.

Felipe Martins Melo · Answer 2 · 05 декабря 2013

Если вы собираетесь разработать целую поисковую систему, предназначенную для масштабирования как по объему, так и по объему, вам понадобится что-то надежное для поддержки ваших запросов.

Если вы собираетесь использовать расстояние редактирования, Кровать - хорошая альтернатива для вашей структуры индекса. Другой хороший подход, в зависимости от размера вашего набора данных, - это использование автоматов Левенштейна . Автоматы Левенштейна также отлично подходят для обеспечения автозаполнения функций, которые могут вам понадобиться, поскольку вы разрабатываете поисковую систему.

Другой подход к редактированию расстояния заключается в использовании n-грамм в сочетании с индексом Жакара. Для этого подхода вы можете использовать Minhash + LSH . Также вы можете использовать Jaccard в качестве метрики расстояния (1 - индекс Джакарта), которая учитывает неравенство треугольника, таким образом, может использоваться в дереве метрик, таком как VP-tree .

Один из этих подходов, безусловно, поможет вам.

Каков наилучший метод интеллектуального анализа данных для поиска транспортных средств?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каков наилучший метод интеллектуального анализа данных для поиска транспортных средств?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы