Я работаю над приложением, которое требует от меня разбора неструктурированных
текст. Мне нужно разобрать имя, адрес - область, город, страну и почтовый индекс
от него. Адреса будут индийские.
Пример ввода:
«Я работаю в компании XYZ.
Я хорошо разбираюсь в веб-дизайне с опытом работы от 3 лет.
Я живу в Котруде, Пуна-411038, Махараштра. "
Выход:
ИМЯ: ABC
ОБЛАСТЬ: КОТРУД
ГОРОД: ПУНЕ
СОСТОЯНИЕ: МАХАРАШТРА
Почтовый индекс: 411038
Я планирую использовать Apache ConceptMapper для разбора городов и штатов
для чего мне придется самому составить словарь, но думаю, что
осуществимо. Для почтового индекса я могу использовать регулярные выражения. Я застрял в том, как
разобрать имя и область. Regex можно использовать для получения имени и области с
немного взлома и много шаблонов, но мне интересно, есть ли
доступно лучшее решение.
Есть ли какая-нибудь база данных, к которой я могу обратиться, которая бы возвращала адреса? я
не смотрел в Google карты / места, но вы можете получить адрес
с ними легко разбираться?
Любые материалы будут высоко оценены.
Спасибо.