То, что вы делаете, это технически лексический анализ («лексизм»), который берет последовательность входных символов и генерирует серию токенов или лексем. Так что слово, пунктуация и пробел - все это токены.
В (E) терминах BNF лексемы или токены являются синонимами терминальных символов. Если вы думаете о наборе правил синтаксического анализа как о дереве, то терминальными символами являются листья дерева.
Так какой же атом вашего ввода? Это слово или предложение? Если это слова (и пробел), то предложение больше похоже на правило разбора. Фактически сам термин «предложение» может вводить в заблуждение. Нередко ссылаться на всю входную последовательность как на предложение.
Полу-общим термином для последовательности символов, не являющихся пробелами, является «textrun».