Удалить телефонные номера с помощью регулярных выражений в Python 3 - PullRequest
0 голосов
/ 12 июня 2018

Я пытаюсь удалить телефонные номера из пакета документов, которые я проанализировал с использованием tika , но у меня ничего не получается.

Вот снимок экрана взят валидатор регулярных выражений Как видите, номера телефонов пропущены.

Тот же пример в текстовом формате выглядит следующим образом:

"Что-то здесь

и что-то здесь 9, но(У меня здесь тоже кое-что есть), 123456, Привет, ребята!

+ 39.1234.325636 +39.321.1234567

пол мужской | дата рождения 16.12.1927 | национальность итальянская

кое-что "

Это мой Regex (я не эксперт в этой области):

(\(00\d{2}\)|\(\+\d{2}\)|00\d{2}|\+\d{2})[\. ]??3\d{2}[\. \-]??\d{2,4}[\. \-]??\d{2,4}$

Уведомлениечто +39 (или 0039) фиксировано, и первые 3 во втором телефонном номере также фиксированы.

Есть ли у вас какие-либо предложения?Большое спасибо.

Ответы [ 2 ]

0 голосов
/ 12 июня 2018

Это еще одно регулярное выражение /((?:\+39)|(?:0039))+[0-9. ]+/gm.который поможет найти ваши телефонные номера

Демо

0 голосов
/ 12 июня 2018

Это работает для меня на валидаторе regex101 с учетом вашего ввода: (\+|00)39\.[0-9]+\.[0-9]+

...