Мне нужно проанализировать документ и собрать статистику относительно того, сколько раз каждая последовательность слов используется (таким образом, анализ проводится не по отдельным словам, а по серии повторяющихся слов). Я читал, что алгоритмы сжатия делают что-то похожее на то, что я хочу, - создавая словари блоков текста с частотой информации, сообщающей их частоту.
Это должно быть что-то похожее на http://www.codeproject.com/KB/recipes/Patterns.aspx
У вас есть что-нибудь написанное на C #?