Question

У меня есть 20 000 адресов компаний в различных документах, которые все по-разному отформатированы.Например:

Компания A 12345, улица США
CompanyA, Inc box2, 12345 улица WA, США
Компания B, компания ООО 123 Happy Street UK
Компания B, Ltd 123, Happy Street, Лондон, S1 1AA

Я хотел бы иметь возможность объединить записи для каждой компании (то есть разделить вышеперечисленное на две категории, по одной на компанию).

Я понятия не имею, как это сделать.Я предполагаю, что любая кластеризация будет вероятностной по своему характеру и, вероятно, будет хорошо работать для более простых совпадений, но затем потребуется ручная проверка для менее вероятных / более неопределенных совпадений.

Кто-нибудь может назвать какие-либо методы, подходящие для этого типа задач?1025 *

большое спасибо!

Gian · Answer 1 · 15 августа 2010

Возможно автоматическая грамматическая индукция - это метод, который даст здесь результаты. Вы можете попытаться вывести грамматику для своего текста, а затем использовать какие-то метрики сравнения для кластеризации выведенных грамматик.

Методы вероятностной кластеризации похожих текстовых данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Методы вероятностной кластеризации похожих текстовых данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы