У меня много почтовых сообщений, и мне нужно их почистить, удалив подписи и цитаты.Поэтому мне нужно удалить повторяющиеся части.
Я полагаю, что некоторый текст, который повторяется в нескольких сообщениях с разными темами, является подписью, и если какой-то текст повторяется в нескольких сообщениях с одной и той же темой (игнорируя Re: и Fw :)такое цитата.
Так как обнаружить такие общие / повторяющиеся части во всех сообщениях?Есть ли алгоритм или библиотека для выполнения этой задачи?