Многие люди предлагали смотреть на расстояния / метрики, как подходы, и я думаю, что формулировка вопроса ведет к этому. (Кстати, хеш, такой как md5, пытается сделать нечто прямо противоположное метрике, поэтому неудивительно, что это не сработает для вас. Существуют похожие идеи, которые мало меняются при небольших дельтах, но я подозреваю, что они не кодируют достаточно информации для того, что вы хотите сделать)
Особенно учитывая ваше обновление в комментариях, я думаю, что такой подход не очень полезен.
То, что вы ищете, - это скорее проблема кластеризации, когда вы хотите сгенерировать подпись (то есть вектор признаков) из каждого электронного письма, а затем сравнить ее с новыми входными данными. По сути, у вас есть проблема машинного обучения. Решить, что означает «закрыть», может быть непросто. Однако для начала, если предположить, что на самом деле это электронные письма, которые вы просматриваете, вам может быть полезно посмотреть на генерацию функций, выполняемых многими спам-фильтрами, это даст вам (возможно, евклидову, по крайней мере, для начала) пространство измерять расстояния на основе сигнатуры (вектор признаков).
Не зная больше о вашей проблеме, трудно быть более конкретным.