Поскольку вы хотите получить только от is
до конца предложения, этот RegEx будет работать:
\bis\s+(.+?)\.
, который необходимо использовать с флагом s
, чтобы .
также соответствовал символам новой строки, если предложение разбито на несколько строк. Я использую +
квантификатор с .
, так как .*
сделает соответствие всего регулярного выражения даже ничем между is
и .
, что не имеет смысла для предложения.

.
удаляется из вашего вывода путем удаления его из круглых скобок. «Остальная часть предложения» находится в первой группе захвата.
Обратите внимание, что такой простой подход не сработает, если в предложении есть такие слова, как Mrs.
(и есть много фраз, содержащих .
, которые могут принадлежать предложению).
Разбор естественного языка очень сложен. Если у вас есть
что-нибудь более сложное, чем простой, четко определенный и предсказуемый текст, тогда вам следует обратиться к выделенной библиотеке. Быстрый поиск показывает, например, комплексные библиотеки NLTK и spaCy .
Этот полезный инструмент регулярных выражений предлагает объяснение того, как он соответствует. Вариант вашей попытки
(\bis\b)([\s\S]*)

Подробнее смотрите на связанной странице. Комментарии
Он создает две группы захвата, где вашей целевой выходной информацией является вторая группа, и вы можете назвать ее, используя $ 2 .
Первая группа создает границу слова вокруг вашего единственного экземпляра , равного .
Вы можете экранировать мета-символы любого языка, используя \ .