Я пытаюсь написать выражение регулярного выражения, которое можно использовать для идентификации длинных предложений в документе.В моем случае это научная рукопись.Я собираюсь сделать это либо в офисе libre, либо в любом текстовом редакторе с поиском по регулярным выражениям.
До сих пор я получал следующее выражение для работы в большинстве случаев:
(\[*\(*[\w|\-|–|−|\/|≥|≤|’|“|”|μ]+\%*\)*\]*,*\:*\s+){24,}?(\[*\(*[\w|\-|–|−|\/|≥|≤|’|“|”|μ]+\%*\)*\]*[\.|?|!|$])
Кстати, я получилвдохновленный этим постом
Он содержит:
group1:
(\[*\(*[\w|\-|–|−|\/|≥|≤|’|“|”|μ]+\%*\)*\]*,*\:*\s+)
a repetition element (stating how many words n - 1):
{24,}?
group2:
(\[*\(*[\w|\-|–|−|\/|≥|≤|’|“|”|μ]+\%*\)*\]*[\.|?|!|$])
Основное назначение: group1 соответствует любому количеству символов слова ИЛИ другим символам, присутствующим в тексте, за которым следуетс одним или несколькими пробелами group1 должен повторяться 24 раза (или столько раз, сколько вы хотите, чтобы предложения были длинными) group2 соответствует любому количеству символов слова ИЛИ другим символам, присутствующим в тексте, после которых ставится точка, восклицательный знак,знак вопроса или разрыв абзаца.
Затем будет выделена любая строка, которая удовлетворяет всем вышеперечисленным требованиям.
Что я пока не могу решить, так это заставить работать, когда в тексте появляется точкас другим значением, чем полная остановка.Такие вещи, как: например, и т. Д., Рис., 1.89, и т. Д. .... Также мне не нравится, что мне пришлось вручную настроить его, чтобы иметь возможность обрабатывать предложения, содержащие несловесные символы, такие как, [(% - # µ "'и т. д. Я должен был бы расширять выражение каждый раз, когда сталкиваюсь с каким-то другим необычным символом.
Я был бы рад любой помощи или предложениям других способов решения этой проблемы..