Я хочу сохранить и проиндексировать всю свою историческую электронную почту и новости как отдельные файлы сообщений, используя некоторый вычисленный хэш-код, основанный на теле сообщения + заголовки. Тогда я буду индексировать и другие вещи - для поиска.
Для первичного индексного ключа я думаю использовать SHA-1 для алгоритма хеширования и предположить, что никогда не будет никаких коллизий (хотя я знаю, что теоретически это может быть).
Помимо тела, какие заголовки я должен индексировать? Или, в более общем смысле, какие преобразования следует применить к копии сообщения в памяти перед хэшированием?
Должен ли я игнорировать заголовки "ReSent- *:"? Стоит ли объединять ломаные заголовки в однострочные и удалять лишние пробелы?
(Причина, по которой я хочу индексировать сообщения на основе заголовка, а не заголовка идентификатора сообщения, заключается в том, что заголовки идентификатора сообщения не имеют одинакового формата.)