Здесь [top] обозначает частоту слова во всем наборе данных. Он учитывает количество слов (num_words), основанное на нисходящей частоте каждого слова. У меня было сомнение, очевидно, что слова-стоп-слова будет встречаться чаще, чем другие слова, и, таким образом, большинство стоп-слов попадут в верхние (num_words) слова, но для обработки мы сначала удаляем стоп-слова, а затем применяем токенизацию.