Я не очень хорошо разбираюсь в регулярных выражениях, но мне нужно убрать идентификаторы из URL-адресов из большого блока текста.
URL выглядит следующим образом:
domain.com /path / ID_GOES_HERE
Проблема заключается в том, что внутренние почтовые сообщения имеют широкий спектр форматов:
- <a href="http://www.domain.com/path/ID_GOES_HERE">http://www.domain.com/path/ID_GOES_HERE</a>
- www.domain.com/path/ID_GOES_HERE
- http://domain.com/path/ID_GOES
_HERE
Идентификатор состоит только из букв и цифр.Никаких других символов.
РЕДАКТИРОВАТЬ: Другая проблема заключается в том, что, поскольку я обрабатываю электронные письма, которые ужасно отформатированы, иногда URL заканчивается в конце строки, где он разбивается на две строки,в конце ставится знак равенства, например:
http://www.domain.com/path/EE33FDE291A=
8D972
Таким образом, идентификатор искажается.