Я пытаюсь удалить фрагменты предложений в нижнем регистре из стандартных текстовых файлов, используя регулярные выражения или простой Perl oneliner.
Их обычно называют, например, тегами речи или атрибуции - сказал он, сказала она и т. Д.
Этот пример показывает до и после использования ручного удаления:
- Оригинал:
"Ах, это совершенно верно!" воскликнул Алеша.
"О, перестань играть в дурака! Входит какой-то идиот, а ты нас
Стыдно! - закричала девушка у окна, неожиданно повернувшись к отцу
с презрительным и презрительным видом.
"Подожди немного, Варвара!" воскликнула ее отец, говоря безоговорочно, но
глядя на них вполне одобрительно. "Это ее характер", сказал он,
снова обращаясь к Алеше.
"Где ты был?" он спросил его.
«Я думаю, - сказал он, - я кое-что забыл ... мой платок, я
думаю .... ну, даже если я ничего не забыл, позвольте мне остаться
немного ".
Он сел. Отец стоял над ним.
"Вы тоже садитесь," сказал он.
- Все фрагменты строчных предложений удалены вручную:
«Ах, это совершенно верно!»
"О, перестань играть в дурака! Входит какой-то идиот, а ты нас
позор! "
"Подождите немного, Варвара!" "Это ее характер"
"Где ты был?"
«Я думаю», «Я кое-что забыл ... мой платок, я
думаю .... ну, даже если я ничего не забыл, позвольте мне остаться
немного ".
Он сел. Отец стоял над ним.
"Вы тоже садитесь"
Я изменил прямые кавычки "на сбалансированные и пробовал:" (...) + [.]
Конечно, это удаляет некоторые фрагменты, но удаляет некоторый текст в сбалансированных кавычках и текст, начинающийся с заглавных букв. [^ A-Z] не работает в вышеприведенном выражении.
Я понимаю, что может быть невозможно достичь 100% точности, но любые полезные выражения, perl или python-скрипт будут высоко оценены.
* * Ура тысяча сорок-девять,
Aaron