Разбор имени и адреса из неструктурированного текста - PullRequest
0 голосов
/ 02 февраля 2011

Я работаю над приложением, которое требует от меня разбора неструктурированных текст. Мне нужно разобрать имя, адрес - область, город, страну и почтовый индекс от него. Адреса будут индийские.

Пример ввода: «Я работаю в компании XYZ. Я хорошо разбираюсь в веб-дизайне с опытом работы от 3 лет. Я живу в Котруде, Пуна-411038, Махараштра. "

Выход: ИМЯ: ABC ОБЛАСТЬ: КОТРУД ГОРОД: ПУНЕ СОСТОЯНИЕ: МАХАРАШТРА Почтовый индекс: 411038

Я планирую использовать Apache ConceptMapper для разбора городов и штатов для чего мне придется самому составить словарь, но думаю, что осуществимо. Для почтового индекса я могу использовать регулярные выражения. Я застрял в том, как разобрать имя и область. Regex можно использовать для получения имени и области с немного взлома и много шаблонов, но мне интересно, есть ли доступно лучшее решение.

Есть ли какая-нибудь база данных, к которой я могу обратиться, которая бы возвращала адреса? я не смотрел в Google карты / места, но вы можете получить адрес с ними легко разбираться?

Любые материалы будут высоко оценены.

Спасибо.

1 Ответ

0 голосов
/ 02 февраля 2011

Google Geocoding API может помочь с этим.Он вернет координаты карты для данного адреса или соответствующего кода состояния, если совпадение не найдено.

...