Извлечение международных уличных адресов / телефонных номеров из текста произвольной формы - PullRequest
2 голосов
/ 23 мая 2009

Эй, ребята. Мне нужны регулярные выражения, которые помогут извлечь уличные адреса и номера телефонов из текста произвольной формы (например, Gmail).

С учетом некоторого текста: "John, I went to the store today, and it was awesome! Did you hear that they moved to 500 Green St.? ... Give me a call at +14252425424 when you get a chance."

Я бы хотел вытащить:

500 Green St. (распознан как уличный адрес)

+14252425424 (распознается как номер телефона)

Что облегчает эту проблему, так это то, что мне нет дела до разбора текста, который извлекается. То есть мне все равно, что Green - это название дороги или 425 - это код города. Я просто хочу взять строки, которые «похожи» на адреса или номера телефонов.

К сожалению, это должно работать на международном уровне, как можно лучше.

Кто-нибудь ведет? Спасибо!

Ответы [ 3 ]

1 голос
/ 13 августа 2009

Телефонные номера, пока у вас есть список всех кодов стран и форматов номеров, легко, адреса улиц я не знаю, единственный совет, который я могу дать вам, это проверить каждый набор слов @ addressdoctor.com

1 голос
/ 09 июня 2010

Вы можете попробовать RecogniContact (-> address-parser.com ), он распознает как почтовые адреса, так и номера телефонов.

0 голосов
/ 23 мая 2009

Взгляните на главу 7 Dive Into Python . Это касается как телефонных номеров, так и уличных адресов. Я считаю, что вы можете использовать это в качестве отправной точки. Международная часть кажется жесткой. Я предлагаю вам создать первый черновик, опробовать его на нескольких локалях, повторить и улучшить.

...