У меня есть вопрос, который должен быть достаточно простым для экспертов, но мучительно загадочным для меня :) Я хотел бы разбить текст (предварительно обработанный, без специальных символов, кроме обычных знаков препинания) на предложения и выполнить две задачианалогично:
Для каждого предложения найдите количество слов (длина предложения).Затем для документа найдите среднюю длину предложения.Нет необходимости сообщать о каких-либо результатах на уровне предложений.Обратите внимание, что документ содержит достаточное количество имен собственных, поэтому заглавная буква не обязательно означает начало предложения.НО предложения в этом документе обычно заканчиваются на «,», «!» Или «?».
Для каждого предложения примените шаблон регулярного выражения.Если есть совпадение, дайте предложению значение, например, 1.Для всего документа укажите количество совпадений.Опять же, нужны только выходные данные уровня документа.
Мне интересно, есть ли способ сделать это, предпочтительно в C # или VB.Любая помощь будет оценена.
======================
Пример абзаца:
This is an example of a paragraph! It contains three sentences? And the average sentence has many words.
Пример шаблона:
"three"
Выход:
number of sentences-3.
Average sentence length-6.
Number of matches-1.