Я так понимаю, что "вы никогда не пробовали" - это фраза, которую вы не хотите извлекать, но которая имеет высокий IDF.Проблема будет в том, что будет огромное количество n-грамм, которые встречаются только в одном документе и, следовательно, имеют максимально возможную оценку IDF.
В НЛП существует множество методов сглаживания.Эта статья [ Чен и Гудман ] является довольно хорошим обзором многих из них.В частности, вы говорите, что вас может заинтересовать алгоритм сглаживания Kneser-Ney , который работает так, как вы предлагаете (отступая к n-граммам меньшей длины).обычно используется для задачи языкового моделирования, т. е. для оценки вероятности появления n-граммы с учетом действительно большого корпуса языка.Я действительно не знаю, как вы могли бы интегрировать их с результатами IDF, или даже если это действительно то, что вы хотите сделать.