Я не думаю, что вы можете легко проверить это. Маловероятно, что это будет простая проблема сопоставления строк, в которую вы можете добавить регулярное выражение, потому что я предполагаю, что вы использовали имя «Роджер» только для примера и что в этой позиции может появиться любое количество имен. Вы также можете запустить одно из регулярных выражений, предоставленных другими авторами, параметризуя его каждой перестановкой очевидных имени и фамилии. Это, вероятно, займет где-то между «слишком долго» и «навсегда» и обнаружит множество ложных срабатываний.
Другой подход, который работает с шаблоном, который вы опубликовали выше, заключается в том, чтобы взять последние 4 буквы имени пользователя и сравнить их с чем-то. Обнаружение случайных символов в отличие от разумного расположения (с учетом конкретного языка) может быть выполнено путем обучения цепочки Маркова на допустимом тексте, который затем позволяет рассчитать вероятность появления данных 4 букв в указанном порядке на этом языке. Для случайных букв эта вероятность обычно намного ниже, чем для допустимого имени (хотя, если там есть специальные символы или цифры, все ставки отключены).
Другим способом может быть использование байесовского фильтра (например, что-то вроде Reverend в Python, хотя есть и другие), обученного на последних 4 письмах законных адресов электронной почты. Это, вероятно, определит 95% случайных, если вы сделаете данные пригодными для использования. например. Отправка не только четырех букв, но и каждой из двухбуквенных и трехбуквенных подстрок внутри, чтобы захватить контекст каждой буквы. Я не думаю, что это будет работать так же хорошо, как метод Маркова.
Независимо от того, что вы проверяете, вы можете сократить ложные срабатывания, отправив для него только определенные адреса электронной почты (например, только те, которые находятся на адресах электронной почты, которые содержат подчеркивание, по крайней мере с 3 символами перед подчеркиванием и 5 символами после него).
Но, в конечном счете, вы никогда не сможете точно знать, является ли это спам-адресом или реальным, пока он не будет использован для той или иной цели. Поэтому, если возможно, я бы предложил отказаться от попыток проанализировать контент и решить проблему где-то еще. Каким образом они убивают коэффициент конверсии? Если вы подсчитываете эти фиктивные учетные записи в какой-либо метрике, лучше всего сначала добавить этап проверки, а заботиться только о показателях для учетных записей, которые проходят проверку. В конце концов, некоторые люди действительно имеют такие адреса, как rogerep_dyeepvu@hotmail.com.