Из чего состоит одно предложение? Как назвать это? - PullRequest
1 голос
/ 27 января 2010

Я разрабатываю архитектуру парсера текста. Пример предложения: Content here, content here.

Целое предложение ... предложение, это очевидно. The, quick и т. Д. Являются словами; , и . являются знаками препинания. Но что такое слова и знаки препинания вместе? Это просто символы? Я просто не знаю, как назвать то, из чего состоит отдельное предложение, наиболее разумным абстрактным способом (потому что можно написать, что оно состоит из букв / гласных и т. Д.).

Спасибо за любую помощь:)

Ответы [ 3 ]

3 голосов
/ 27 января 2010

То, что вы делаете, это технически лексический анализ («лексизм»), который берет последовательность входных символов и генерирует серию токенов или лексем. Так что слово, пунктуация и пробел - все это токены.

В (E) терминах BNF лексемы или токены являются синонимами терминальных символов. Если вы думаете о наборе правил синтаксического анализа как о дереве, то терминальными символами являются листья дерева.

Так какой же атом вашего ввода? Это слово или предложение? Если это слова (и пробел), то предложение больше похоже на правило разбора. Фактически сам термин «предложение» может вводить в заблуждение. Нередко ссылаться на всю входную последовательность как на предложение.

Полу-общим термином для последовательности символов, не являющихся пробелами, является «textrun».

2 голосов
/ 27 января 2010

В зависимости от того, на какой стадии вашего лексического анализа входного текста вы просматриваете, это могут быть либо лексемы, либо токены.

2 голосов
/ 27 января 2010

Общим термином, включающим две подкатегории «слова» и «знаки препинания», часто используемым при разговоре о разборе, является «токены».

...