Если я вас правильно понимаю, вы хотите подготовить пакет слов только из одного текстового документа с токенами, что является неправильным подходом. После того, как вы предварительно обработали каждый документ - корпус - вы должны вернуться к форме "предложения" , поэтому давайте скажем, что ваши токенизированные слова:
['hello', 'like', mountain', 'spring']
просто сделайте его
'hello like mountain spring'
Сделайте это со всеми документами, чтобы у вас был массив, аналогичный массиву из примера
['hello like mountain summer', 'another string here', 'another also here']
И вот с этой формы мы можем начать готовить пакет слов, здесь будет:
{hello, like, mountain, summer, another, string, here, also}
И с этого момента будет довольно легко сосчитать TF, TFID, и именно эту форму ожидает fit_transform от CountVectorizer.