Как правило, в системе НЛП текст будет разбит на токены, и работа с URL-адресами или адресами электронной почты является лишь одним из примеров сокращения низкочастотных токенов для заполнителей для уменьшения разреженности данных.Предполагая, что токенизация способна хранить каждый элемент в одном токене, проще заменить токены - точно так же, как вы можете заменить все слова, которые встречаются меньше определенного порога, на заполнитель.
Далее,Возможно, вы захотите применить Baum-Welch для всего этого бизнеса.