Организация Детали Признание - PullRequest
1 голос
/ 07 ноября 2010

Я пытаюсь написать анализатор сведений о компании, который может разбить текст, как показано ниже, на составляющие:

ФИРМА ЗЕМЕЛЬНЫХ И СОВМЕСТНЫХ СИСТЕМ

Управление общей подписью

Wookey Hole Road

Колодцы

Сомерсет

BA5 1AA

Тел: +44 (0) 1749 682384

Факс: +44 (0) 1749 682235

Проблема, с которой я сталкиваюсь, состоит в том, как я могу сказать, что «Total Signature Management» на самом деле не является частью адреса? Как правило, компания отображает свое имя «THALES LAND AND JOINT SYSTEM», и строка 2 обычно будет первой частью адреса.

В случае, указанном выше, за названием компании следует неадресная часть, есть ли какая-либо разница?

Спасибо

1 Ответ

0 голосов
/ 07 апреля 2012

Вы можете рассчитать вероятность адреса <-> Описание на основе встречающихся слов.В этом примере это совершенно очевидно: строка «дорога», скорее всего, будет частью адреса, чем строка «управления».

Это должно работать, если неадресная часть появится только посленазвание компании.Если возможно, что неадресные части можно найти где-то в тексте, почти невозможно отделить их без дополнительной информации.

Возможно, вы захотите взглянуть на подобный вопрос Я спросил вчера.

Редактировать : Вы можете создать статистическую модель, основанную на предыдущих категорированных адресных частях (те, в которых вы уверены, что они являются адресами;)).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...