где я могу получить регулярное выражение или пакет библиотеки для распознавания уличного адреса, почтового индекса, штата, телефонных номеров, электронных писем и т. д. - PullRequest
1 голос
/ 10 сентября 2009

у меня есть куча неформатированных документов ....

Мне нужно регулярное выражение, чтобы захватить адрес, почтовый индекс, штат, номера телефонов, электронные письма, такие общие форматы ...

Ответы [ 2 ]

2 голосов
/ 10 сентября 2009
0 голосов
/ 13 октября 2011

В случае уличных адресов и, в определенной степени, почтовых индексов, регулярные выражения могут зайти так далеко. На самом деле, попытка переопределить улицу практически невозможна из-за огромного разнообразия форматов адресов улиц - даже из Соединенных Штатов.

Регулярное выражение, которое довольно хорошо сработало для строго отформатированных почтовых индексов в США: ^ \ d {5} ([- +]? \ D {4})? $

В США почтовые индексы обычно форматируются следующим образом:

  • 12345
  • 123456789
  • 12345-6789
  • 12345 + 6789 12345-67ND (да, вы правильно прочитали, иногда последние два могут быть "ND")

Другая проблема, с которой вы столкнетесь, - это когда через Excel запускается ZIP с нулевым префиксом, например, из Новой Англии, и он удаляет начальный ноль, оставляя четырехзначное число . Вот почему одно только регулярное выражение не может выполнить работу на 100% даже за такое «простое», как почтовый индекс в США.

В зависимости от потребностей бизнеса вам может понадобиться решение для проверки адреса. Любой онлайновый провайдер, достойный его внимания, может стандартизировать, проверить и указать адрес, который сообщит вам, является ли адрес реальным, и может помочь уменьшить мошенничество и обратную доставку и т. Д.

В интересах полного раскрытия я являюсь основателем SmartyStreets. У нас есть онлайновая служба проверки адресов , которая очищает, стандартизирует и проверяет адреса. Вы можете связаться со мной лично по любым возникшим у вас вопросам.

...