Допустим, у меня есть 100000 тел электронной почты, и в 2000 из них есть обычная обычная строка типа «быстрая коричневая лиса перепрыгивает через ленивую собаку» или «lorem ipsum dolor sit amet». Какие приемы можно / нужно использовать, чтобы «добыть» эти фразы? Я не заинтересован в поиске отдельных слов или коротких фраз. Также мне нужно отфильтровать фразы, которые я уже знаю, встречаются во всех письмах.
Пример:
string mailbody1 = "Welcome to the world of tomorrow! This is the first mail body. Lorem ipsum dolor sit AMET. Have a nice day dude. Cya!";
string mailbody2 = "Welcome to the world of yesterday! Lorem ipsum dolor sit amet Please note this is the body of the second mail. Have a nice day.";
string mailbody3 = "A completely different body.";
string[] mailbodies = new[] {mailbody1, mailbody2, mailbody3};
string[] ignoredPhrases = new[] {"Welcome to the world of"};
string[] results = DiscoverPhrases(mailbodies, ignoredPhrases);
В этом примере я хочу, чтобы функция DiscoverPhrases возвращала "lorem ipsum dolor sit amet" и "хорошего дня". Это не так важно, если функция также возвращает более короткие «шумовые» фразы, но если это возможно, было бы неплохо устранить их в процессе.
Редактировать: я забыл включить mailbody3 в пример.