Это всего лишь предположение;не уверен, что этот подход будет работать.Если вы смотрите на фразы и близость слов, возможно, вы можете создать цепь Маркова?Таким образом, вы можете получить представление о частоте определенных фраз / слов по отношению к другим (на основе порядка вашей цепочки Маркова).
Таким образом, вы строите цепочку Маркова и распределение частот за 2009 год.Затем вы создаете еще один в конце 2010 года и сравниваете частоты (определенных фраз и слов).Возможно, вам придется нормализовать текст.
Кроме этого, на ум приходят методы естественного языка (существует много литературы по этой теме!).