Нашли ли вы ответ на свой вопрос? Я нашел несколько исследовательских статей:
www.cis.upenn.edu / ~ Перейра / документы / crf.pdf
citeseerx.ist.psu.edu / viewdoc / скачать? Дои = 10.1.1.84.9192 & Rep = REP1 и тип = PDF
www2.selu.edu / Академики / Факультет / aculotta / Пабы / culotta04extracting.pdf
Но нет конкретных примеров кода для реализации любой из этих идей.
Взгляните на это тоже:
stackoverflow.com/questions/953150/general-address-parser-for-freeform-text
(извините, я исключил http, эта система не позволяет мне публиковать более одной ссылки / ссылки)