Методы вероятностной кластеризации похожих текстовых данных? - PullRequest
3 голосов
/ 15 августа 2010

У меня есть 20 000 адресов компаний в различных документах, которые все по-разному отформатированы.Например:

  • Компания A 12345, улица США

  • CompanyA, Inc box2, 12345 улица WA, США

  • Компания B, компания ООО 123 Happy Street UK

  • Компания B, Ltd 123, Happy Street, Лондон, S1 1AA

Я хотел бы иметь возможность объединить записи для каждой компании (то есть разделить вышеперечисленное на две категории, по одной на компанию).

Я понятия не имею, как это сделать.Я предполагаю, что любая кластеризация будет вероятностной по своему характеру и, вероятно, будет хорошо работать для более простых совпадений, но затем потребуется ручная проверка для менее вероятных / более неопределенных совпадений.

Кто-нибудь может назвать какие-либо методы, подходящие для этого типа задач?1025 *

большое спасибо!

1 Ответ

2 голосов
/ 15 августа 2010

Возможно автоматическая грамматическая индукция - это метод, который даст здесь результаты. Вы можете попытаться вывести грамматику для своего текста, а затем использовать какие-то метрики сравнения для кластеризации выведенных грамматик.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...